КЛУБ СТОКОВЫХ ФОТОГРАФОВ, ИЛЛЮСТРАТОРОВ, ВИДЕОГРАФОВ и ИИ-ШНИКОВ
http://www.zastavkin.com/forum/

Поисковые алгоритмы на стоках
http://www.zastavkin.com/forum/viewtopic.php?f=11&t=3706
Страница 1 из 1

Автор:  lvinst [ 24 10 2007, 22:54 ]
Заголовок сообщения:  Поисковые алгоритмы на стоках

Предлагаю в этой ветке обсуждаться особенности поиска и ранжирования фоток на разных стоках.

Вот интересная инфа, выцыпленная на другом форуме:

I have just decided to run a test. I searched for "yellow car", photos only. Here is what I found in the first 20 images:

DT: all 20 were yellow cars.
IS: 9 were yellow cars (if you consider also a bus and a kid's cart); 10 if you consider a road scene with a yellow bus somewhere in the composition. Five were yellow signs or lane lines.
SXP: 5 were yellow cars. Many signs and lane lines, many non-yellow cars (I see one by a big photog with a lot of keyword spamming...)
BSP: 19 were yellow cars, plus one yellow cable car.
FT: 19 were yellow cars.
SS: 6 were yellow cars.

Автор:  neo [ 25 10 2007, 16:13 ]
Заголовок сообщения: 

А можно узнать, какие еще есть интесные стоковые форумы/сообщества?
По сабжу - могу сказать про айс. Там такая низкая релевантность обусловлена: 1) Большим количеством ключевиков, описывающих фотографию; 2) Единым весом bm фотки для всех запросов

Автор:  lvinst [ 25 10 2007, 17:33 ]
Заголовок сообщения: 

По поводу форумов. Я нашла вот такой -- http://www.talkmicro.com/
Есть еще группы на Yahoo, например, такая

http://tech.groups.yahoo.com/group/micropayment/

А что касается айсовского БМ, то спаисбо за инфо. В таком варианте БМ вычисляется для фотки и хранится в виде числового значения в таблице вплоть до следующего обновления этой таблицы.

Тогда собственно сам поиск должен происзодить так. По поисковому запросу выбарется группа записей, соответсуеющая запросу и полученная таблица упорядочивается по вычиленному значению БМ, которое хранится для каждой фотки.

По идее это должно сильно ухудшать результаты поиска. Поскольку наверх могут всплывать не релевантные запрсу записи. Где-то так на Айсе и происходит.

Автор:  neo [ 25 10 2007, 18:42 ]
Заголовок сообщения: 

Да, думаю так все и происходит. Можно еще добавить, что сначала ищутся фразы, соответствующие поисковому запросу. Если фразы есть, то (правда не всегда) выводится список с фотками, содержащими в описании эту фразу. После этого фраза разбивается на отдельные слова, и выводятся фотки, содержащие все эти слова. Вообще я видел фотографов, которые записывали комбинации каких-то популярных слов как фразы, в результате чего большую часть первой страницы по этой фразе занимали его фотки.
зы: за линки спасибо

Автор:  lvinst [ 26 10 2007, 13:13 ]
Заголовок сообщения: 

Интресно. Даже если фразы целиком нет в словаре Гетти?
Еще бы хорошо знать, какие устойчивые словосчетания используются при поиске. Какие-то стоки показывают статистику по поискоым фразам, а не по отдельным словам? Или просто перебирать возможные комбинации из популярных ключевых?

Автор:  neo [ 26 10 2007, 15:12 ]
Заголовок сообщения: 

Да, если в гети нет, то фотки с фразами выводятся, только если запрос набран в кавычках. Судя по всему, ту фразу, что я видел, была в гетти. Но факт в том, что кем-то она усиленно использовалась, а другие просто вводили два разных ключевика.

Автор:  neo [ 26 10 2007, 15:21 ]
Заголовок сообщения: 

lvinst писал(а):
Какие-то стоки показывают статистику по поискоым фразам, а не по отдельным словам? Или просто перебирать возможные комбинации из популярных ключевых?

А вы знаете стоки, которые показывают статистику по отдельным словам? Мне вот кроме шатера топ 100 ничего не известно. М.б., поделитесь информацией? :)

Автор:  lvinst [ 26 10 2007, 15:48 ]
Заголовок сообщения: 

На стоках -- не знаю. Но я использую вот такой инструмент -- https://adwords.google.com/select/KeywordToolExternal. При определенных поправках (если пользоваться им осмысленно), может быть использован и для стоковых запросов. Важно, что он показывает устойчивые словосочетания и статистику поиска по ним.

Автор:  neo [ 26 10 2007, 15:57 ]
Заголовок сообщения: 

Так ведь спрос на текстовую информацию немножко отличается от спроса на коммерческое фото, да и статистики там конкретной нет (для этого кстати можно юзать овертюру или вордтрекер).

Автор:  lvinst [ 26 10 2007, 16:44 ]
Заголовок сообщения: 

neo писал(а):
Так ведь спрос на текстовую информацию немножко отличается от спроса на коммерческое фото, да и статистики там конкретной нет (для этого кстати можно юзать овертюру или вордтрекер).


Отличается, безусловно. Поэтому приходится использовать хитрым образом. Но все-равно это лучше, чем ничего. Чем придумывать эти запросы самостоятельно. А так-- есть набор запросов, нужно прикинуть, кто и что может по-таким запросам искать, выбрать подходящие и протестировать их в поисковике стока. Можно еще коррективы вносить с учетом стоковых особенностей.

Автор:  neo [ 26 10 2007, 17:17 ]
Заголовок сообщения: 

А этой тулзой не пользуетесь?

Автор:  Paha_L [ 26 10 2007, 17:34 ]
Заголовок сообщения: 

lvinst писал(а):
На стоках -- не знаю. Но я использую вот такой инструмент -- https://adwords.google.com/select/KeywordToolExternal. При определенных поправках (если пользоваться им осмысленно), может быть использован и для стоковых запросов. Важно, что он показывает устойчивые словосочетания и статистику поиска по ним.

ага, блин. набрал, мама сын, и устойчивыми оказалась их только половая связь

Автор:  lvinst [ 26 10 2007, 17:57 ]
Заголовок сообщения: 

neo писал(а):
А этой тулзой не пользуетесь?


Пользуюсь. Хороший тулз.

Автор:  neo [ 26 10 2007, 18:20 ]
Заголовок сообщения: 

Ну что, может быть уже начнем говорить про bm?:) ИМХО, во время недавних проблем у айса со счетчиком просмотров можно было легко выявить два главных фактора, влияющих на bm. В топ попадали, во-первых, фотки с отношением загрузок к просмотрам близим к единице, и, во-вторых, высоким кол-вом загрузок на ед. времени. У вас есть какие-нить наблюдения по этому поводу?

Автор:  lvinst [ 26 10 2007, 18:43 ]
Заголовок сообщения: 

neo писал(а):
Ну что, может быть уже начнем говорить про bm?:) ИМХО, во время недавних проблем у айса со счетчиком просмотров можно было легко выявить два главных фактора, влияющих на bm. В топ попадали, во-первых, фотки с отношением загрузок к просмотрам близим к единице, и, во-вторых, высоким кол-вом загрузок на ед. времени. У вас есть какие-нить наблюдения по этому поводу?


Соображения есть. Сейчас набросаю схемку и запощу. Долго словами описывать.

Автор:  lvinst [ 26 10 2007, 21:56 ]
Заголовок сообщения: 

Часть 1. Общие соображения :D

Изображение

f -- функция, вычисляющая БМ.
Значений БМ мы не знаем, а знаем только ранг, соответсвующий некоторому значению БМ.

Как сортируются знчения БМ -- тоже неизвестно. Можно предположить, что по убыванию. Тогда, чем "лучше" изображение, тем выше у нее значение БМ.

Исходя из этих соображений, я выбрала вид функции f как суммы двух функций, каждая из которых по отедльности характеризует изображение и автора.

Могут ли значения БМ быть отрицательными? По идее -- могут. Если применяется система штрафов за заспамливание ключевикв или за низкий процент приемки.

Таким образом, все, что характеризует автора или изображение в позитивном ключе идет в формулу бестматча со знаком плюс. Все остальное -- со знаком минус.

Автор:  Paha_L [ 26 10 2007, 22:15 ]
Заголовок сообщения: 

а как это БМ может зависеть от автора, только если посредством фоты

Автор:  neo [ 26 10 2007, 22:22 ]
Заголовок сообщения: 

Paha_L писал(а):
а как это БМ может зависеть от автора, только если посредством фоты

навскидку несколько гипотетических факторов: эксклюзивность, кол-во купленных работ, процент отказов. Все эти факторы говорят о качестве его фоток.

Автор:  lvinst [ 26 10 2007, 22:29 ]
Заголовок сообщения: 

Paha_L писал(а):
а как это БМ может зависеть от автора, только если посредством фоты


Да, посредством фоты. Точнее было бы сказать, что вторая функция характеризует портфолио в целом.

Т. е. БМ отдельной фоты зависит не только от самой фоты, но и от характеристик портфолио.

Автор:  neo [ 26 10 2007, 22:41 ]
Заголовок сообщения: 

lvinst писал(а):
Часть 1. Общие соображения :D

Изображение

f -- функция, вычисляющая БМ.
Значений БМ мы не знаем, а знаем только ранг, соответсвующий некоторому значению БМ.

Как сортируются знчения БМ -- тоже неизвестно. Можно предположить, что по убыванию. Тогда, чем "лучше" изображение, тем выше у нее значение БМ.

Исходя из этих соображений, я выбрала вид функции f как суммы двух функций, каждая из которых по отедльности характеризует изображение и автора. Или в следующих частях все уже есть?:)

Могут ли значения БМ быть отрицательными? По идее -- могут. Если применяется система штрафов за заспамливание ключевикв или за низкий процент приемки.

Таким образом, все, что характеризует автора или изображение в позитивном ключе идет в формулу бестматча со знаком плюс. Все остальное -- со знаком минус.
Предлагаю теперь перечислить все характеристики автора и фоток, которые могут влиять на bm, а потом их поочередно экспериментально оценивать.

Автор:  lvinst [ 26 10 2007, 22:45 ]
Заголовок сообщения: 

Если по первой части возражений больше нет, допишу вторую часть и выложу.

Автор:  neo [ 26 10 2007, 22:47 ]
Заголовок сообщения: 

ok. Сегодня ждать?:)

Автор:  lvinst [ 26 10 2007, 22:59 ]
Заголовок сообщения: 

neo писал(а):
ok. Сегодня ждать?:)


Нет. Наверное уже завтра, то есть после полуночи точно.

Автор:  Paha_L [ 27 10 2007, 09:20 ]
Заголовок сообщения: 

neo писал(а):
Paha_L писал(а):
а как это БМ может зависеть от автора, только если посредством фоты

навскидку несколько гипотетических факторов: эксклюзивность, кол-во купленных работ, процент отказов. Все эти факторы говорят о качестве его фоток.

это уже больше на астрологию похоже, тогда добавьте сюда активность автора на форуме, соответсвие политической коньюктуре и тд.

Автор:  neo [ 27 10 2007, 11:23 ]
Заголовок сообщения: 

Почему же, мне кажется все достаточно логичным. Все эти факторы говорят о качестве или потенциальной продаваемости работ автора. Если портфолио одного автора пользуется спросом больше, чем у другого, то скорей всего и следующие фотографии первого будут лучше покупаться. Поэтому айсу выгодно, чтобы новые работы первого увидело больше людей и им присваиваться коэффициент bm больше, чем для работ второго.

Автор:  lvinst [ 27 10 2007, 13:31 ]
Заголовок сообщения: 

Часть 2. Возможный вид функции f1

Изображение

ИМХО, рейтинг напрямую в БМ не учитывается. Его достаточно сложно учесть разумным образом. Скорее всего, рейтинг имеет значение только для сортировки результатов "по рейтингу".

Автор:  Юрий Христич [ 27 10 2007, 13:53 ]
Заголовок сообщения: 

Invist, прошу прощения, что перебиваю. Надеюсь, мой пост не собъет Ваш прицел :)

neo писал(а):
Поэтому айсу выгодно, чтобы новые работы первого увидело больше людей и им присваиваться коэффициент bm больше, чем для работ второго.

Ну, не все так однозначно. Такой алгоритм предоставленный самому себе неизбежно приведет к чудовищным перекосам.

По-моему основной параметр бестматча: соотношение просмотров и продаж. В этом можно убедиться сформировав запрос по любому ключевому слову и проанализировав порядок следования изображений по этому соотношению. Отклонения от порядка определяемого соотношением числа просмотров и продаж не очень значительны. Причем, надо иметь в виду, что засчитываются только уникальные просмотры, если кто-то уже посмотрел это изображение, то в следущий раз его просмотр приплюсован к счетчику не будет. (Авторизация пользователя скорее всего происходит по двум параметрам : по логину, и по cookies)

Можно попытаться угадать, какие факторы корректируют рейтинг:
-- очень сильно корректируется рейтинг для IOTW
-- заметно на рейтиг влияет возраст картинки (чем картинка младше, тем выше она поднимается по БМ, при прочих равных)
-- в это трудно поверить, но я не уловил ощутимой корреляции рейтинга с эксклюзивностью :). Да, действительно, по популярным запросам, наверху обычно оказывется очень много эксклюзивных авторов, но при ближайшем рассмотрении, у них действительно оказывается более успешное соотношение числа продаж и просмотров (может эксклюзивщикам "прощают" часть холостых просмотров?).

И самое главное, что в большинстве реальных запросов, корректриующие факторы (кроме IOTW) сдвигают картинку туда-сюда не так уж далеко, обычно -- в пределах одной страницы. Т. е. на практике, они не так уж сильно затрудняют покупателю разыскать именно то, что ему нужно. На большой статистике в массштабах стока -- это дает какой-то ощутимый эффект, но для нас с вами -- это почти ничто. Мне кажется, что неудачно выбранные ключевые слова, гораздо сильнее влияют на продажи.

Приведу забавный пример из собственной практики. На днях искал на Айсе бегущего страуса. По запросу 'ostrich' -- больше шести сотен страусов. Ввожу уточнение 'run' -- вижу, что страусов осталось четыре десятка. Из них бегущих -- два с половиной, и оба довольно убогие. Решил полистать наудачу шесть сотен фоток вручную. В итоге нашел хорошего страуса:

Изображение

Посмотрите на его ключевые: Ostrich, Wildlife, Animals In The Wild, Safari Animals, Ngorongoro Conservation Area, Tanzania, East Africa, Africa

Спасибо, что хоть слово 'cтраус' есть...

P. S. Большая просьба, если не собираетесь покупать эту картинку, то лучше не открывайте эту картинку на сайте Айстока. У нее довольно мало просмотров, и ей от роду всего две недели. Давайте не будем гробить ей бестматч :)

Автор:  lvinst [ 27 10 2007, 14:06 ]
Заголовок сообщения: 

Вы не учитываете особенности поиска. Там сначала работает отбор по поисковому запросу. Ваш запрос про страуса -- низкоконкурентный. И это многое объясняет.

Автор:  Veronika [ 27 10 2007, 14:08 ]
Заголовок сообщения: 

Тперь понятно каким образом я погубила свои хиты на Айстоке, давая на них ссылки на здешнем форуме... Сама виновата - не фиг было хвалиться

Автор:  Юрий Христич [ 27 10 2007, 14:24 ]
Заголовок сообщения: 

Invist, опять извиняюсь, но "отбор по поисковому запросу" -- это что? Предарительная фильтрация? Т. е. часть картинок с подходящими ключевыми, вообще не попадает в результаты поиска?

Да, конечно, по самым популярным запросам, типа: business, people, baсkground и т. д. количество результатов очень велико, и там флуктуации бестматчевой сортировки могут швырять картинки на несколько страниц вперед и назад. Но ведь и покупатели, формулируя такой "неумный" запрос, и увидя, что найдено несколько тысяч изображений -- наверняка, быстро учатся уточнять свои пожелания. Вообще, было бы полезно понаблюдать за реальными покупателями, как они ищут изображения.

---

И в этой связи, позволю себе еще одно лирическое отступление, перед тем как дать дискуссии погрязнуть в обсуждении математических выкладок :)

Иногда мне приходится поизводить поиск изображений на Айстоке не со своего компьютера, не залогиниваясь и т. д. То есть, я имею удовольствие в полной мере наслаждаться дефолтными Айстоковскими установками поиска. Вот что я вам скажу, ребята -- это жопа страшная. Я удивляюсь, как обычные люди могут этим пользоваться. Фильтры (фото, вектор, флеш, видео) постоянно слетают, в последний раз я так и не смог избавиться от видео. Чтобы догадаться, как пользоваться продвинутыми настройками (например, чтобы увеличить количество картинок на странице с совершенно идиотских двадцати, до приемлемых пятидесяти), надо быть очень продвинутым пользователем. Не говоря уж о совершенно неубиваемом адьюльт-фильтре -- его иногда просто невозможно выключить (слава создателю, это не часто требуется). То же самое со всяким удобными подрисуночными подписями, но это уже мелочи.

Но самое смешное, что как-раз способ сортировки переключается очень легко и беболезненно. Я заметил, что в моих запросах, чаще всего, эффективнее искать с сортировкой по дате -- при этом велик шанс увидеть не только искомое изображение, но и его вариации из той же серии, если они есть у автора. Правда, при таком поиске надо исхитряться с уточняющими запросами, чтобы ограничить количество найденных изображений хотя бы несколькими сотнями. А дальше пролистывать их врукопашную. И тут в полный рост встает проблема с адекватными ключевыми словами. Не могу поддержать людей ратующих за словесный минимализм (не знаю, но наверняка такие есть). Слов доложно быть много. Конечно, не должно быть дезинформации и полной отсебятины, но подробно описывать картинку надо.

Автор:  neo [ 27 10 2007, 14:25 ]
Заголовок сообщения: 

lvinst писал(а):
Часть 2. Возможный вид функции f1

Изображение

ИМХО, рейтинг напрямую в БМ не учитывается. Его достаточно сложно учесть разумным образом. Скорее всего, рейтинг имеет значение только для сортировки результатов "по рейтингу".

Что вы думаете по поводу характеристики кол-во продаж/время за какой-то период времени, например, за день или время между пересчетами bm? Насчет продаж и просмотров, т.е. вы считаете, что чем соотношение d/v ближе к единице, тем вес этого фактора больше, так?

Автор:  neo [ 27 10 2007, 14:55 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Не могу поддержать людей ратующих за словесный минимализм (не знаю, но наверняка такие есть). Слов доложно быть много. Конечно, не должно быть дезинформации и полной отсебятины, но подробно описывать картинку надо.

Вот тут есть небольшой нюанс. Повышая кол-во ключевых слов, вы понижаете их суммарную релевантность карточке. ВОзьмем ваш пример: оставим слово Ostrich и допишем run, остальное убираем (знаю, что с 2 не пустят, но не в этом суть). Покупатели будут находить вашу фотографию только по этим ключевикам. Как вы думаете, какое будет отношение d/v? Я считаю, что достаточно высокое. Соотношение высокое->высокий bm->фотка выше в выдаче->ее больше покупают. Добавим к этим двум ключевикам остальные Wildlife, Animals In The Wild, Safari Animals, Ngorongoro Conservation Area, Tanzania, East Africa, Africa. Как вы думаете, людям, ищущим по ним, нужен именно страус? Нет->покупать станут реже->соотношение d/v понизится->фотка упадет в выдаче. Немного посидим и придумаем еще 40 слов. Ясно, что с каждым словом его релевантность фотке будет падать->еще больше понизится соотношение->еще больше упадем. Это все я конечно утрирую и не говорю, что меньше лучше, т.к. по каждому ключевику идет разное количество запросов, которое, к сожалению или к счастью, нам неизвестно.

Автор:  Юрий Христич [ 27 10 2007, 15:17 ]
Заголовок сообщения: 

neo писал(а):
Вот тут есть небольшой нюанс. Повышая кол-во ключевых слов, вы понижаете их суммарную релевантность карточке.

Хе-хе. Люблю теоретиков. Сам имею слабость... :) Но надо бы иногда соблюсти и экспериментальную "клиническу" строгость. Тем, кому не нужен страус -- эту картинку просто не откроют. Достаточно посмотреть на превьюшку. Соответственно, не изменится баланс d/v.

А вот тем, кому нужен именно африканский страус, а не австралийский, при осутствии ключевого слова 'Africa' (или при его неправильном использовании) придется открыть изображение, чтобы посмотреть его подробнее. Со всеми вытекающими. Не говоря уже о том, что такой покупатель введя в запросе ограничечение 'Africa' -- просто не увидит этого страуса, хотя возможно, что именно это изображение ему и нужно.

Автор:  neo [ 27 10 2007, 15:24 ]
Заголовок сообщения: 

Юрий Христич писал(а):
neo писал(а):
Вот тут есть небольшой нюанс. Повышая кол-во ключевых слов, вы понижаете их суммарную релевантность карточке.

Хе-хе. Люблю теоретиков. Сам имею слабость... :) Но надо бы иногда соблюсти и экспериментальную "клиническу" строгость. Тем, кому не нужен страус -- эту картинку просто не откроют. Достаточно посмотреть на превьюшку. Соответственно, не изменится баланс d/v.

ok. 2 вопроса: 1) Чем вызваны вариации соотношения d/v?
2) Почему у айса этот фактор основной?
Просто не думаю, что они это сделали для прикола. Должна быть логика. Вот как у гугля, больше ссылаются, значит сайт в авторитете, можно доверять.:)

Автор:  Юрий Христич [ 27 10 2007, 15:42 ]
Заголовок сообщения: 

neo писал(а):
ok. 2 вопроса:

Ох, чую подвох :)

neo писал(а):
1) Чем вызваны вариации соотношения d/v?

Я же не первого попавшегося страуса купил. Я их несколько нашел, посмотрел на них "подробнее". Купил самого подходящего. Остальные остались с "холостными" просмотрами. Логично предположить, что они "хуже".

neo писал(а):
2) Почему у айса этот фактор основной?

Вопрос не по зарплате :) Так уж они решили. В этом есть своя логика. У меня скорее другой вопрос: зачем они это скрывают? Зачем они устраивают из своего сайта некий клуб, с креативными сетями и т. д. Поощряют общение фотографов друг с другом. Загаживая попутно им бестматчевый рейтинг. Пока я это могу объяснить только, крайним лицемерием айстоковского руководства.

Им выгодно поддерживать клубообразность своего стока (это повышает его привлекательность среди творчестких людей). Но и отказаться от своего бестматча они тоже не хотят. И сказать людям правду, не решаются. Но кончаются такие интриги довольно плохо.

Автор:  neo [ 27 10 2007, 16:11 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Я же не первого попавшегося страуса купил. Я их несколько нашел, посмотрел на них "подробнее". Купил самого подходящего. Остальные остались с "холостными" просмотрами. Логично предположить, что они "хуже".

Смотрите, вы вводите Safari Animals и Animals In The Wild и начинаете подряд открывать животных, в т.ч. страуса. Но ведь согласитесь, что процент покупок страуса тут будет меньше процента покупок по запросу ostrich. Т.е., например, всех ваших конкурентов-страусов покупают по запросу ostrich, а вашего страуса вдобавок и по запросу safari Animals, но здесь соотношение будет определенно ниже, потому как дизайнер не уверен, что ему нужен страус и вероятность, что здесь будет куплен страус ниже. Вообщем, сумбурно как-то получилось все. Значит, смысл моей теории одной фразой: чем конкретнее ключевик, тем большее отношение d/v он даст.

Юрий Христич писал(а):
У меня скорее другой вопрос: зачем они это скрывают? Зачем они устраивают из своего сайта некий клуб, с креативными сетями и т. д. Поощряют общение фотографов друг с другом. Загаживая попутно им бестматчевый рейтинг. Пока я это могу объяснить только, крайним лицемерием айстоковского руководства.

Так ведь покупатели тоже ей пользуются:)

Автор:  Юрий Христич [ 27 10 2007, 19:37 ]
Заголовок сообщения: 

neo писал(а):
чем конкретнее ключевик, тем большее отношение d/v он даст.

:) Ходим по кругу: http://www.zastavkin.com/forum/viewtopi ... start=3868

Вы правы, конечно, чем больше ключевых тем больше холостых просмотров. Это типичное теоретическое, логически безупречное предположение. Но мы не можем теоретически вычислить сколько в реальности изображение теряет из-за "лишних" ключевых, и сколько из-за них преобретает. Можно лишь высказывать личные предпочтения. Мне кажется, что от малого количества ключевых картинка больше теряет, чем приобретает (с учетом того, что тем кому она явно не нужна, откывать её не станут -- достаточно будет увидеть превьюху). С малым количеством слов картинка "всего-лишь" на сколько-то улучшает свой бестматч, но при этом сильно сужает область в которой может быть найдна.

neo писал(а):
Так ведь покупатели тоже ей пользуются:)

Ага :) Для разминки, попробуйте-ка отыскать на Айсе фотографии с ревью от покупателей (file downoad: yes) :) Даже среди хитов с тысячами продаж и сотнями ревью -- покупательских отзывов обычно нет. Какие из этого можно сделать предположения о некоммерческой покупательской активности?

Автор:  lvinst [ 27 10 2007, 20:10 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Invist, опять извиняюсь, но "отбор по поисковому запросу" -- это что? Предарительная фильтрация? Т. е. часть картинок с подходящими ключевыми, вообще не попадает в результаты поиска?

Да, конечно, по самым популярным запросам, типа: business, people, baсkground и т. д. количество результатов очень велико, и там флуктуации бестматчевой сортировки могут швырять картинки на несколько страниц вперед и назад. Но ведь и покупатели, формулируя такой "неумный" запрос, и увидя, что найдено несколько тысяч изображений -- наверняка, быстро учатся уточнять свои пожелания. Вообще, было бы полезно понаблюдать за реальными покупателями, как они ищут изображения.



Я имела в виду, что по непопулярному запросу Вы, скорей всего, получите нерепрезентативную выборку. Например, маленькое число эксклюзивщиков в такой выборке будет присутсвовать.

Кроме того, чтобы убедится том, что эксклюзивность или какой-либо другой фактор оказывают влияние на БМ, нужно ставить более сложный случайный эксперимент.

В случае с эксклюзивностью, нужно свести на ноль влияние других факторов. Например, так:
1. Вводим популярный поисковый запрос, сортируем по дате.
2. Включаем в лайтбокс картинки с одинаковой датой загрузки, количествм продаж и просмотров, одним и тем же размером, рейтингом, количеством публичных лайтбоксов. То есть в идеале в нашем лайтбоксе должны оказаться полностью сравнимые по параметрам картинки эксклюзивщиков и не эксклюзивщиков (например, авторов без канистры). Вот тогда, для полученной выборки, можно вычислить коэффициент кореляции и получить ответ на вопрос:

"есть ли зависмость между рангом фотки в сортировке по БМ и экскюзивностью автора".

Автор:  lvinst [ 27 10 2007, 20:29 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Часть 2. Возможный вид функции f1

Изображение

ИМХО, рейтинг напрямую в БМ не учитывается. Его достаточно сложно учесть разумным образом. Скорее всего, рейтинг имеет значение только для сортировки результатов "по рейтингу".

Что вы думаете по поводу характеристики кол-во продаж/время за какой-то период времени, например, за день или время между пересчетами bm? Насчет продаж и просмотров, т.е. вы считаете, что чем соотношение d/v ближе к единице, тем вес этого фактора больше, так?


Что мы наблюдали в реале? Что при приближении просмотров к продажам ранг фотки резко увеличивался. То есть такие фотки оказывались отранжированными выше, чем фотки эксклюзивщиков. Эксклюзивщики взвыли, поскольку продажи у многих из них --- драматически упали.

Таким образом, когда просмотры сравнимы с продажами, то вклад первого слагаемого функции f1 в функцию f -- является решающим.

С другой стороны, когда продажи превышают просмотры, это слагаемое оказывается отрицательным по величине, то есть превращается в своеобразный "штраф" и фотка сваливается по БМ в полный даун.

Автор:  neo [ 27 10 2007, 20:42 ]
Заголовок сообщения: 

lvinst писал(а):
Юрий Христич писал(а):
Invist, опять извиняюсь, но "отбор по поисковому запросу" -- это что? Предарительная фильтрация? Т. е. часть картинок с подходящими ключевыми, вообще не попадает в результаты поиска?

Да, конечно, по самым популярным запросам, типа: business, people, baсkground и т. д. количество результатов очень велико, и там флуктуации бестматчевой сортировки могут швырять картинки на несколько страниц вперед и назад. Но ведь и покупатели, формулируя такой "неумный" запрос, и увидя, что найдено несколько тысяч изображений -- наверняка, быстро учатся уточнять свои пожелания. Вообще, было бы полезно понаблюдать за реальными покупателями, как они ищут изображения.



Я имела в виду, что по непопулярному запросу Вы, скорей всего, получите нерепрезентативную выборку. Например, маленькое число эксклюзивщиков в такой выборке будет присутсвовать.

Кроме того, чтобы убедится том, что эксклюзивность или какой-либо другой фактор оказывают влияние на БМ, нужно ставить более сложный случайный эксперимент.

В случае с эксклюзивностью, нужно свести на ноль влияние других факторов. Например, так:
1. Вводим популярный поисковый запрос, сортируем по дате.
2. Включаем в лайтбокс картинки с одинаковой датой загрузки, количествм продаж и просмотров, одним и тем же размером, рейтингом, количеством публичных лайтбоксов. То есть в идеале в нашем лайтбоксе должны оказаться полностью сравнимые по параметрам картинки эксклюзивщиков и неэксклюзивщиков (например, авторов без канистры). Вот тогда, для полученной выборки, можно вычислить коэффициент кореляции и получить ответ на вопрос:

Можно гораздо проще. У каких карточек одинаковые загрузки, просмотры, лайтбоксы и рейтинг? Ответ - у новых. Просто смотрим за поведением новых фотографий эксклюзивщиков и неэксклюзивщиков. Я проводил такой эксперимент, но выборка маленькая была (3 фотографа) Вывод: связь есть. Точных цифр не помню, по низкоконкурентному слову у экс-ка - где-то на 25+ странице, у неэкс-ка - на 40+.

Автор:  neo [ 27 10 2007, 20:54 ]
Заголовок сообщения: 

lvinst писал(а):
neo писал(а):
lvinst писал(а):
Часть 2. Возможный вид функции f1

Изображение

ИМХО, рейтинг напрямую в БМ не учитывается. Его достаточно сложно учесть разумным образом. Скорее всего, рейтинг имеет значение только для сортировки результатов "по рейтингу".

Что вы думаете по поводу характеристики кол-во продаж/время за какой-то период времени, например, за день или время между пересчетами bm? Насчет продаж и просмотров, т.е. вы считаете, что чем соотношение d/v ближе к единице, тем вес этого фактора больше, так?


Что мы наблюдали в реале? Что при приближении просмотров к продажам ранг фотки резко увеличивался. То есть такие фотки оказывались отранжированными выше, чем фотки эксклюзивщиков. Эксклюзивщики взвыли, поскольку продажи у многих из них --- драматически упали.

Таким образом, когда первое слагаемоe фукции f1 оказывается близким по значению к a1, то его вклад в функцию f -- является решающим.

С другой стороны, когда продажи превышают просмотры, это слагаемое оказывается отрицательным по величине, то есть превращается в своеобразный "штраф" и фотка сваливается по БМ в полный даун.

ну штраф может начисляться по условию d/v>1. А вот резкого увелечения я не видел. Когда у карточки отношение становилось максимальным среди остальных, она выходила в лидеры. Т.е. я не видел явных признаков экспоненциальной зависимости, только линейную. Так что насчет хар-ки (кол-во продаж)/(день)? Ведь при отключении счетчика в топе не было фотографий с показателями d/v 1/1, 2/2; d и v в большинстве были больше десяти. (я говорю про высококонкурентные темы типа people)

Автор:  lvinst [ 27 10 2007, 21:06 ]
Заголовок сообщения: 

neo писал(а):
ну штраф может начисляться по условию d/v>1.


Зачем? В нормальной ситуации такого быть не может. Вернее, может, но маловероятно. Если предположить, что покупатели смотрят фотографию один раз, а покупают несколько размеров. А "непокупатели" фотку практически не смотрят. Зачем в такой ситуции накладывать "штраф"? Зачем ее вообще предусматривать?


На самом деле, все это произошло, когда отключили счетчик просмотров. И исходя из наблюдений за поведением ранга в такой ситуации можно и построить вид фукции f1.

neo писал(а):
А вот резкого увелечения я не видел. Когда у карточки отношение становилось максимальным среди остальных, она выходила в лидеры. Т.е. я не видел явных признаков экспоненциальной зависимости, только линейную.


А где Вы видите в моей форумуле экспоненциальную зависмость? Ее там нет.

Автор:  Юрий Христич [ 27 10 2007, 21:06 ]
Заголовок сообщения: 

lvinst писал(а):
Кроме того, чтобы убедится том, что эксклюзивность или какой-либо другой фактор оказывают влияние на БМ, нужно ставить более сложный случайный эксперимент.

И я про то же. Имеет ли смысл беспокоиться о параметрах, которые можно разглядеть только при таких невероятно стерильных условиях? Тем более, что возможность управления этими параметрами остается под большим вопросом. На практике, мы просто вводим ключевые слова и получаем список работ. Это список сортируется по d/v с небольшими "флуктуациями" (да и то, только в том случае, когда выбран метод сортировки по БМ). По-моему -- этого знания вполне достаточно для практических манипуляций.

Или Вам с позиций чисто научного азарта интересно вычислить и спрогнозировать "флуктуации"?

---
Кстати, отталкиваясь от своего опыта, полагаю, что постоянные покупатели должны часто пользоваться сортировкой по дате. Только при такой сортировке можно быть уверенным, что не пропустил что-то новенькое по вдоль и поперек перекопаной теме. Т. е. если я через месяц полезу опять искать страуса, я обязательно включу сортировку по дате, чтобы не лопатить опять все шесть сотен страусов.

Автор:  neo [ 27 10 2007, 21:08 ]
Заголовок сообщения: 

Юрий Христич писал(а):
neo писал(а):
чем конкретнее ключевик, тем большее отношение d/v он даст.

:) Ходим по кругу: http://www.zastavkin.com/forum/viewtopi ... start=3868

Вы правы, конечно, чем больше ключевых тем больше холостых просмотров. Это типичное теоретическое, логически безупречное предположение. Но мы не можем теоретически вычислить сколько в реальности изображение теряет из-за "лишних" ключевых, и сколько из-за них преобретает. Можно лишь высказывать личные предпочтения. Мне кажется, что от малого количества ключевых картинка больше теряет, чем приобретает (с учетом того, что тем кому она явно не нужна, откывать её не станут -- достаточно будет увидеть превьюху). С малым количеством слов картинка "всего-лишь" на сколько-то улучшает свой бестматч, но при этом сильно сужает область в которой может быть найдна.
Да, именно так. Еще из наблюдений - новые фотки, выходящие в топ, часто имеют небольшое кол-во ключевых слов. Тут правда я сравниваю их (по кол-ву ключевиков) не со всеми новыми фотками, а с фотками, которые уже в топах. Т.е., как я думаю, у новых фоток с небольшим кол-вом ключевиков получается неплохое отношение d/v по сравнению сдругими, но им не хватает объемов, чтобы удержаться в топе.

Автор:  neo [ 27 10 2007, 21:13 ]
Заголовок сообщения: 

lvinst писал(а):
А где Вы видите в моей форумуле экспоненциальную зависмость? Ее там нет.
Я конечно не математик, но если зафиксировать кол-во продаж, т.е. x1=const, то вроде получается.

Автор:  lvinst [ 27 10 2007, 21:16 ]
Заголовок сообщения: 

Юрий Христич писал(а):
lvinst писал(а):
Кроме того, чтобы убедится том, что эксклюзивность или какой-либо другой фактор оказывают влияние на БМ, нужно ставить более сложный случайный эксперимент.

И я про то же. Имеет ли смысл беспокоиться о параметрах, которые можно разглядеть только при таких невероятно стерильных условиях?
Или Вам с позиций чисто научного азарта интересно вычислить и спрогнозировать "флуктуации"?



На разных этапах жизни фотки, опеделяющее значение играют разные параметры. Например, на старте -- это один набор параметров (продажи и просмотры равны нулю), по истечении 5-6 месяцев -- это другие параметры и т. п.

Автор:  Юрий Христич [ 27 10 2007, 21:19 ]
Заголовок сообщения: 

neo писал(а):
Просто смотрим за поведением новых фотографий эксклюзивщиков и неэксклюзивщиков.

Вот это уже интересно. Новые изображения очень чувствительны бестматчу. Просмотров очень мало, любая ранняя покупка сильно выталкивает картинку наверх. И диагностировать легче -- нет "букета болезней".

В принципе, можно не ждать милостей от природы :) Есть возможность поставить клинический эксперимент. Договориться с двумя авторами, с похожей тематикой, но один автор должен быть эксклюзивным, а другой неэксклюзивным. Взять у них две свежие работы похожие по коммерческой перспективности :) И понаблюдать за ними. Если у какой-то работы увеличивается количество просмотров, то и другой добавить просмтотров силами форумчан. Если какую-то картинку купят, вторую надо будет тоже купить, и т. д.

Например, можно предложить побыть в роли "подопытных": de-mi и Веронике.

Автор:  neo [ 27 10 2007, 21:21 ]
Заголовок сообщения: 

lvinst, уточните, пожайлуста, a1, a2, ... это веса для каждого фактора, так?

Автор:  lvinst [ 27 10 2007, 21:26 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
А где Вы видите в моей форумуле экспоненциальную зависмость? Ее там нет.
Я конечно не математик, но если зафиксировать кол-во продаж, т.е. x1=const, то вроде получается.


Да уж. Вы сильно "не математик". Это даже не уровень средней школы. :smile:
Все равно, какие значения принимает x1, хоть фиксируйте ее, хоть не фиксируйте, а входит она в формулу сама по себе. Экспоненциальной зависимости там нет.

То что находится в знаменателе -- просмотры минус продажи плюс один -- имеет простой "физический" смыл: сколько раз фотку посмотрели, не купив. Единица добавляется, чтобы на ноль не делить в случае, когда продажи совпадают с просмотрами.

Автор:  neo [ 27 10 2007, 21:27 ]
Заголовок сообщения: 

а потом их забанят за накрутку :) ну допустим будет положительныый результат, что из-за этого всем в эксклюзивщики идти. Гораздо продуктивней что-нить придумать по ключевикам.

Автор:  lvinst [ 27 10 2007, 21:30 ]
Заголовок сообщения: 

neo писал(а):
lvinst, уточните, пожайлуста, a1, a2, ... это веса для каждого фактора, так?

Да. Эти параметры могут выбираться, и фактически являются рычагами управления.

То есть изменяя эти параметры, можно фактически изменять конкурентные условия.

Автор:  Юрий Христич [ 27 10 2007, 21:35 ]
Заголовок сообщения: 

lvinst писал(а):
продажи и просмотры равны нулю

Хм. Этот случай я не рассматривал. А ведь, он относительно легок для наблюдения. Фактически надо будет найти, две свежие и явно маловостребованные картинки с похожим набором слов, одна -- эксклюзивщика, другая -- обычного автора. И посмотреть, кто за кем идет, и с каким отрывом :) Потом наблюдение повторить над другой парой изображений. Чем больше наблюдений, тем надежнее вывод. Можно будет понаблюдать этот эффект и у "подопытных" авторов.

Таким образом можно будет более-менее обосновано ответить на вопрос: действительно ли virgin-работы эксклюзивщиков имеют приоритет в БМ-сортировке по сравнению с неэксклюзивными авторами.

neo писал(а):
ну допустим будет положительныый результат, что из-за этого

Я тоже удивляюсь, зачем нужно тратить столько умственной энергии для подтверждения или опровержения таких мелочей. Разве-что только из удовольсттвия :)

Автор:  neo [ 27 10 2007, 21:36 ]
Заголовок сообщения: 

lvinst писал(а):
Да уж. Вы сильно "не математик". Это даже не уровень средней школы. :smile:
Все равно, какие значения принимает x1, хоть фиксируйте ее, хоть не фиксируйте, а входит она в формулу сама по себе. Экспоненциальной зависимости там нет.

То что находится в знаменателе -- просмотры минус продажи плюс один -- имеет простой "физический" смыл: сколько раз фотку посмотрели, не купив. Единица добавляется, чтобы на ноль не делить в случае, когда продажи совпадают с просмотрами.
Да это все понятно. Смотрите, допустим, x1=10; a1=1; Изменяем x2:
x2=10; f=10;
x2=11; f=5;
x2=12; f=3.3
...
x2=100; f=0.11

Автор:  Simfo [ 27 10 2007, 22:00 ]
Заголовок сообщения: 

Ежу понятно, что в эксклюзиве БМ меняется в лучшую сторону. На сколько - это уже другой вопрос. И это зависит от конкретной работы. У одного и того же автора две похожие работы загруженные в один день с одинаковыми ключевыми продаются по разному.

И насчет количества ключевых. Тоже сильно зависит от типа изображения. Если это некий абстрактный бэкграунд, то зависимость почти прямая - чем больше ключевых, тем больше покупок. А если это что-то конкретное, ну например хирург со скальпелем, то все слова кроме прямо описывающих фотографию будут во вред.

Автор:  neo [ 27 10 2007, 22:34 ]
Заголовок сообщения: 

Simfo писал(а):
Ежу понятно, что в эксклюзиве БМ меняется в лучшую сторону. На сколько - это уже другой вопрос. И это зависит от конкретной работы. У одного и того же автора две похожие работы загруженные в один день с одинаковыми ключевыми продаются по разному.

Ну не все так очевидно. Для айса конечно в плюс иметь уникальный контент эксклюзивщиков, но с другой стороны и денег с него он получает меньше.
Simfo писал(а):
И насчет количества ключевых. Тоже сильно зависит от типа изображения. Если это некий абстрактный бэкграунд, то зависимость почти прямая - чем больше ключевых, тем больше покупок. А если это что-то конкретное, ну например хирург со скальпелем, то все слова кроме прямо описывающих фотографию будут во вред.

Да, но они все равно прибавят объема карточке (про хирурга идет речь). С другой стороны, если фотка дизайнеру вообще не подходит, он и не будет ее открывать.

Автор:  Simfo [ 27 10 2007, 22:50 ]
Заголовок сообщения: 

Цитата:
Ну не все так очевидно. Для айса конечно в плюс иметь уникальный контент эксклюзивщиков, но с другой стороны и денег с него он получает меньше.


Тут столько копий уже сломали по этому поводу :) Влияет. Примите за аксиому ;) А вот на сколько - можете попытаться высчитать. Но думаю не получится.

Цитата:
Да, но они все равно прибавят объема карточке (про хирурга идет речь). С другой стороны, если фотка дизайнеру вообще не подходит, он и не будет ее открывать.


Будет, не будет... это не математический подход ;) Есть какая-то вероятность, что откроет :)

Автор:  lvinst [ 27 10 2007, 23:25 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Да уж. Вы сильно "не математик". Это даже не уровень средней школы. :smile:
Все равно, какие значения принимает x1, хоть фиксируйте ее, хоть не фиксируйте, а входит она в формулу сама по себе. Экспоненциальной зависимости там нет.

То что находится в знаменателе -- просмотры минус продажи плюс один -- имеет простой "физический" смыл: сколько раз фотку посмотрели, не купив. Единица добавляется, чтобы на ноль не делить в случае, когда продажи совпадают с просмотрами.
Да это все понятно. Смотрите, допустим, x1=10; a1=1; Изменяем x2:
x2=10; f=10;
x2=11; f=5;
x2=12; f=3.3
...
x2=100; f=0.11


И что Вам тут не нравится? Если фотку посмотрели десять раз и купили дсять раз -- это очень хорошая фотка. Такая ситуация практически нереальна. А вы сравниваете эту ситуацию с более реальной -- когда посмотрели сто раз, а купили десять. И при этом делаете вывод,что функция очень резко падает, чуть ли "не по экспоненте".

Не резко она падает, а вполне нормально. Первое слагаемое в функции f1 фактически описывает соотношение "довольных" покупателей и "недовольных" для данной фотки. Если 100 раз посмотрели, а 10 купили, то это означает, что примерно 10% покупателей ушли довольными. Это объективный показатель качества фотки.

Автор:  lvinst [ 27 10 2007, 23:28 ]
Заголовок сообщения: 

Юрий Христич писал(а):
lvinst писал(а):
продажи и просмотры равны нулю

Хм. Этот случай я не рассматривал. А ведь, он относительно легок для наблюдения. Фактически надо будет найти, две свежие и явно маловостребованные картинки с похожим набором слов, одна -- эксклюзивщика, другая -- обычного автора. И посмотреть, кто за кем идет, и с каким отрывом :) Потом наблюдение повторить над другой парой изображений. Чем больше наблюдений, тем надежнее вывод. Можно будет понаблюдать этот эффект и у "подопытных" авторов.


Я не это имела в виду. А практические выводы, которые можно сделать в такой ситуации. Другими словами, какие имеются способы, чтобы улучшить стартовые показатели ранжирования фотки.

Автор:  de-mi [ 27 10 2007, 23:59 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Например, можно предложить побыть в роли "подопытных": de-mi и Веронике.


Рыдаю, читая эту тему :-) Не понимаю ни слова.
Если, о великие, я вам нужна как подопытный кролик - скажите чего изваять, когда загрузить и какие ключевые писать.

Автор:  Юрий Христич [ 28 10 2007, 00:16 ]
Заголовок сообщения: 

de-mi писал(а):
Если, о великие, я вам нужна как подопытный кролик

Скорее -- мышка :)

Автор:  lvinst [ 28 10 2007, 00:24 ]
Заголовок сообщения: 

de-mi, cпасибо за предложение. Добровольцы для экспериметов, конечно, нужны, но их нужно много. И разных.

Эксперимент имеет смысл проводить по закрытым параметрам. Потому что по открытым его можно провести и без добровольцев.

Автор:  neo [ 28 10 2007, 00:25 ]
Заголовок сообщения: 

lvinst писал(а):
И что Вам тут не нравится? Если фотку посмотрели десять раз и купили дсять раз -- это очень хорошая фотка. Такая ситуация практически нереальна. А вы сравниваете эту ситуацию с более реальной -- когда посмотрели сто раз, а купили десять. И при этом делаете вывод,что функция очень резко падает, чуть ли "не по экспоненте".

ясно :)
Но все равно есть вероятность, что там используется просто d/v, а не d/(v-d+1), но чтобы узнать какой, нужно следить за появлением новых фотографий у какого-то автора, потом брать серию его новых фоток, появившихся в примерно одинаковое время, затем начинать следить за изменениями их рангов в портфолио и других показателей, которые могут повлиять на bm, затем сравнить динамику изменения рангов и изменения этих двух отношений (d/v, d/(v-d+1)). И только когда наберется приличная выборка, можно сказать, что с такой-то вероятностью играет значение такой-то показатель. Вообщем сложно все это :) Тем более нужно знать, с чем связаны те или иные изменения рангов, т.е. нужно хотя бы примерно знать, как часто происходит обновление bm. У вас есть наблюдения по этому поводу?

Автор:  neo [ 28 10 2007, 00:30 ]
Заголовок сообщения: 

lvinst писал(а):
Юрий Христич писал(а):
lvinst писал(а):
продажи и просмотры равны нулю

Хм. Этот случай я не рассматривал. А ведь, он относительно легок для наблюдения. Фактически надо будет найти, две свежие и явно маловостребованные картинки с похожим набором слов, одна -- эксклюзивщика, другая -- обычного автора. И посмотреть, кто за кем идет, и с каким отрывом :) Потом наблюдение повторить над другой парой изображений. Чем больше наблюдений, тем надежнее вывод. Можно будет понаблюдать этот эффект и у "подопытных" авторов.


Я не это имела в виду. А практические выводы, которые можно сделать в такой ситуации. Другими словами, какие имеются способы, чтобы улучшить стартовые показатели ранжирования фотки.

Лично я знаю вот какие:
1) Использованием тематических лайтбоксов, которые будут перенаправлять траф на новые фотографии, потому как у новых фоток наибольшая вероятность получить высокий bm.
2) Раскрученное портфолио :)
Что еще добавите?

Автор:  lvinst [ 28 10 2007, 00:58 ]
Заголовок сообщения: 

neo писал(а):
Но все равно есть вероятность, что там используется просто d/v, а не d/(v-d+1),


Исключать ничего нельзя. Но d/v, не описывает драматическое падение фотки в ситуации превышения продаж над просмотрами. А мой вид зависимости описывает. Причем падение будет столь же стремительным, сколь был и стремителен взлет при приближении числа просмотров к числу продаж.

Наблюдать за ранжированием, чтбы определить вид этой функции -- практически бесполезно. Потому что мы не видим значения самой функции f. Мы можем наблюдать лишь за значением ранга, соответсвующему значению функции f. А этого недостаточно. Ибо большие изменения значений функции f могут соответсвовать маленькому изменению ранга.


Тут полезными могу быть ситуации со всякими глюками, типа отключения счетчика загрузок. Нужно ждать очередного глюка.
neo писал(а):
нужно хотя бы примерно знать, как часто происходит обновление bm. У вас есть наблюдения по этому поводу?


В нормальной ситуации -- раз в сутки. Чаще -- накладно.

Автор:  neo [ 28 10 2007, 01:26 ]
Заголовок сообщения: 

lvinst писал(а):
Наблюдать за ранжированием, чтбы определить вид этой функции -- практически бесполезно. Потому что мы не видим значения самой функции f. Мы можем наблюдать лишь за значением ранга, соответсвующему значению функции f. А этого недостаточно. Ибо большие изменения значений функции f могут соответсвовать маленькому изменению ранга.
Ага, но думаю вид не так уж и важен, потому как при среднем d/v 0.1-0.2 он не слишком сильно отличается от вашего. Но наблюдение за рангами все же имеет практический смысл - можно легко определять, какие параметры влияют и насколько сильно (конечно мерить придется в разнице рангов). При этом не нужно искать "одинаковых" авторов и фотки - все параметры зафиксированы, а вероятность одновременного изменения двух и более (напр., кол-во оценок и продаж) параметров достаточно мала. Оценить последствия изменения той или иной хар-ки, как я уже и говорил, можно через разницу начального и конечного рангов по какому-нибудь поисковому запросу. Вообще можно было бы сформировать запрос, который бы включал все фотки (что-то типа people or women or blue и т.д.), тогда бы ранг было взять как значение f, но айс показывает только первую штуку. Можно, конечно, поизвращаться и составить такой же рейтинг самому на основе нескольких ключевиков, но это очень муторно и не для всех фоток можно будет найти их точное расположение (только интервал).

Автор:  iChip [ 28 10 2007, 09:47 ]
Заголовок сообщения: 

Мне кажется, что мысль исследователей Великого и Ужасного БМ потекла по второстепенному руслу. D&V, конечно, играют какую-то роль, но основной коэффициент должен выводиться из смысла самого названия ВМ: Best Match - лучшее совпадение критериям поиска. Т.е. поисковые слова и ключевые и их соотношение определяют основной коэфф. с максимальным весом. Исследование этого соотношения более сложное, но имеет наксимальное практическое значение, поскольку, зная эту зависимость, можно подбирать оптимальный набор ключевых (по составу и кол-ву).

ZB: 2 картинки, одна имеет 50 кл.слов, другая - 10. Каждая дала совпадение по 2 словам из заданных 3-х. То есть коэфф1 = 2/50 = 0.04, коэфф2 = 2/10 = 0.20. Т.е. 2-я будет намного выше первой в ВМ. 3-я картинка: 10 слов и 3 совпадения, получаем 3/10 = 0.30 - выше второй. Если добавить коэффициенты "возраст картинки" и D/V, то порядок немного изменится.

Такое свойство БМ проясняет принцип подбора КС: лучше меньше, но лучше.

Автор:  neo [ 28 10 2007, 10:33 ]
Заголовок сообщения: 

iChip писал(а):
ZB: 2 картинки, одна имеет 50 кл.слов, другая - 10. Каждая дала совпадение по 2 словам из заданных 3-х. То есть коэфф1 = 2/50 = 0.04, коэфф2 = 2/10 = 0.20. Т.е. 2-я будет намного выше первой в ВМ. 3-я картинка: 10 слов и 3 совпадения, получаем 3/10 = 0.30 - выше второй. Если добавить коэффициенты "возраст картинки" и D/V, то порядок немного изменится.
Там все проще. Вы вводите 3 слова и вам уже не будут показываться фотки, не содержащие хотя бы одного слова из этих трех (если конечно не использовать оператор or). Т.е. изначально происходит фильтрация по словам, а затем полученный набор упорядочивается по bm.

Автор:  Maks Bolotnikov [ 28 10 2007, 11:16 ]
Заголовок сообщения: 

iChip писал(а):
Мне кажется, что мысль исследователей Великого и Ужасного БМ потекла по второстепенному руслу. D&V, конечно, играют какую-то роль, но основной коэффициент должен выводиться из смысла самого названия ВМ: Best Match - лучшее совпадение критериям поиска. Т.е. поисковые слова и ключевые и их соотношение определяют основной коэфф. с максимальным весом. Исследование этого соотношения более сложное, но имеет наксимальное практическое значение, поскольку, зная эту зависимость, можно подбирать оптимальный набор ключевых (по составу и кол-ву).

ZB: 2 картинки, одна имеет 50 кл.слов, другая - 10. Каждая дала совпадение по 2 словам из заданных 3-х. То есть коэфф1 = 2/50 = 0.04, коэфф2 = 2/10 = 0.20. Т.е. 2-я будет намного выше первой в ВМ. 3-я картинка: 10 слов и 3 совпадения, получаем 3/10 = 0.30 - выше второй. Если добавить коэффициенты "возраст картинки" и D/V, то порядок немного изменится.

Такое свойство БМ проясняет принцип подбора КС: лучше меньше, но лучше.

Какое глубокое замечание... Вы этот вывод только из названия сделали?

Автор:  iChip [ 28 10 2007, 11:37 ]
Заголовок сообщения: 

Макс Болотников писал(а):
Какое глубокое замечание... Вы этот вывод только из названия сделали?


В основном из названия и немного из здравого смысла и наблюдений.

Автор:  iChip [ 28 10 2007, 11:43 ]
Заголовок сообщения: 

neo писал(а):
Там все проще. Вы вводите 3 слова и вам уже не будут показываться фотки, не содержащие хотя бы одного слова из этих трех (если конечно не использовать оператор or). Т.е. изначально происходит фильтрация по словам, а затем полученный набор упорядочивается по bm.


Условно, про OR думал, а для AND пример легко исправляется. Главное, смысл в том, что важнейшее для нас и для ВМ - ключевые, их количество и качество.

Автор:  Юрий Христич [ 28 10 2007, 15:08 ]
Заголовок сообщения: 

iChip писал(а):
а для AND пример легко исправляется.

Исправьте...

После исправления получим простую формулу (это даже не формула а какой-то странный тавтологический лозунг): чем меньше слов, тем лучше, чем лучше слова, тем еще лучше.

Проверить, так ли это, очень легко. Откройте результаты поиска и посмотрите за "флуктуациями" (когда положение картинки в сортировке по БМ не совпадает с d/v). Если найдёте корреляцию с количеством слов, значит правда (при достаточно большом количестве наблюдений), не найдете, значит, скорее всего -- нет.

Я полагаю, что такой зависимости нет.

Автор:  lvinst [ 28 10 2007, 20:03 ]
Заголовок сообщения: 

iChip писал(а):
Мне кажется, что мысль исследователей Великого и Ужасного БМ потекла по второстепенному руслу. D&V, конечно, играют какую-то роль, но основной коэффициент должен выводиться из смысла самого названия ВМ: Best Match - лучшее совпадение критериям поиска. Т.е. поисковые слова и ключевые и их соотношение определяют основной коэфф. с максимальным весом. Исследование этого соотношения более сложное, но имеет наксимальное практическое значение, поскольку, зная эту зависимость, можно подбирать оптимальный набор ключевых (по составу и кол-ву).

ZB: 2 картинки, одна имеет 50 кл.слов, другая - 10. Каждая дала совпадение по 2 словам из заданных 3-х. То есть коэфф1 = 2/50 = 0.04, коэфф2 = 2/10 = 0.20. Т.е. 2-я будет намного выше первой в ВМ. 3-я картинка: 10 слов и 3 совпадения, получаем 3/10 = 0.30 - выше второй. Если добавить коэффициенты "возраст картинки" и D/V, то порядок немного изменится.

Такое свойство БМ проясняет принцип подбора КС: лучше меньше, но лучше.


Тут произошла терминологическая путанница. Дело в том, что функция, которая вычиляет соответствие запросу и функция, о которой я веду речь и котрую мы называем БМ -- это две разные функции.

Правильнее было бы функцию, о которой я веду речь назвать функцией ранжирования Fir. IstockRanking (TM) :smile:

А функцию, которая вычиляет релевантность запросу -- функцией релевантности Frel. Функция релевантности работает только с параметрами запроса и ключеыми словами (описанием) картинки. Она, естественно, не учитывает никаких свойств портфолио автора. Она просто вычисляет, насколько хорошо картика соответсвует запросу.

Автор:  lvinst [ 28 10 2007, 21:41 ]
Заголовок сообщения: 

Изображение

Вот доработанная схема с учетом замечания iChip.

Теперь практический аспект, сортировка по релевантности, как и сортировка по любому другому признаку, дает на выходе набор кластеров или групп картинок.


В каждый кластер входят картинки с одинаковым уровнем релевантности запросу (если сортировка по релевантности) или с одинаковой датой (если сотировка по дате). И уже в рамках такой группы применяется ранжирование (ранее я его называла БМ, но это не совсем верно). То есть картинки в каждой группе упорядочиваются по значению функции fir.

Если поисковый запрос популярный, то картинок в каждой из групп релевантности будет много. И картинка с плохим значением функции fir будет заброшена в конец "своей" группы.

Автор:  Rellas [ 28 10 2007, 22:10 ]
Заголовок сообщения: 

Не думал, что этот топик перерастет в обсуждение моего любимого БМ ) поэтому не читал его, а щас прочел.

Имеем две картинки, с одинаковым абсолютно всем, но - 1 картинка имеет 2 продажи, 2 картинка имеет 1 продажу, вторая выше по БМ, почему? а потому что первую купили на 10 и 20 недь, а вторую на 30 день :) (это абстрактный пример) ... еще неизвестно как на бм влияют продажи в хсмол, смол, медиум и т.д. ... т.е. возможно ли что продажа в лардже круче чем продажа в хсмоле? почему бы и нет? не так сложно расчитывать и вставлять в формулу, например коэффициент может быть просто колличеством денег приносимыми фоткой за единицу времени.
Теперь берем картинку которую сначала покупали раз в 5 дней, потом раз в 2 дня, потом 2 раза в день, потом 5 раз в день ... потом спустя определенное время 1 раз в день, и вот тут происходит резкое, необоснованное ничем падение бестматча, как это обьяснить?

Еще кстате меня прикалывает фотолия, там при приемке фотке тупо выставляется фиксированная релевантность, и больше она не меняется ... и пока не появится фотка с большей релевантностью (а чем больше фоток в базе, тем шанс этого меньше) то фотка так и будет висеть не двигаясь.

Есть главный секретный коэффициент - шедевральность картинки, и если вы будете его повышать то и прибудет с вами бестматч любого стока. А на остальные коэффициенты мы влиять неможем, только лишь наблюдать и радоваться/огорчаться.

Автор:  lvinst [ 28 10 2007, 22:28 ]
Заголовок сообщения: 

Rellas писал(а):
Не думал, что этот топик перерастет в обсуждение моего любимого БМ ) поэтому не читал его, а щас прочел.


Не надо Айсовский алгоритм ранжирования называть БМ. Это вносит путаницу. БМ -- это сортировка с приоритетом релевантности поисковому запросу. А ранжирование работает всегда. Оно работает и при сортировке по дате, и при сортировке в портфолио.

Rellas писал(а):
Имеем две картинки, с одинаковым абсолютно всем, но - 1 картинка имеет 2 продажи, 2 картинка имеет 1 продажу, вторая выше по БМ, почему? а потому что первую купили на 10 и 20 недь, а вторую на 30 день :) (это абстрактный пример)


Если это абстрактный пример, то ценности он не имеет. А вот если Вы действительно наблюдали такое ранжирование, то это другое дело.

Rellas писал(а):
... еще неизвестно как на бм влияют продажи в хсмол, смол, медиум и т.д. ... т.е. возможно ли что продажа в лардже круче чем продажа в хсмоле? почему бы и нет? не так сложно расчитывать и вставлять в формулу, например коэффициент может быть просто колличеством денег приносимыми фоткой за единицу времени.


Думаю, достаточно просто суммы.

Rellas писал(а):

Еще кстате меня прикалывает фотолия, там при приемке фотке тупо выставляется фиксированная релевантность, и больше она не меняется ... и пока не появится фотка с большей релевантностью (а чем больше фоток в базе, тем шанс этого меньше) то фотка так и будет висеть не двигаясь.


Кем выставлятся, ревьювером?

Автор:  POOH [ 28 10 2007, 22:38 ]
Заголовок сообщения: 

Не абстрактный пример:
Решил проверить правмльность выкладок (здешних).
1)Фото новое, продаж 0, просмотров 5. По поисковому слову нашлось на 17 стр. Один раз купили. На след. день по поиску нашлось на 3-й стр.
2) Фото старое, продаж 0, просмотров 25. Нашлось на 17 стр. Сегодня одна покупка. Завтра сообщу результат поиска.

Автор:  Abricos [ 28 10 2007, 22:53 ]
Заголовок сообщения: 

...

Автор:  Rellas [ 28 10 2007, 23:00 ]
Заголовок сообщения: 

POOH, 1к5 и 1к25 это сильный разброс основного коэффициента ... ставлю на 12 страницу )

lvinst, про фотолию хз, имхо инспектором ... но на это тоже повлиять никак нельзя, кроме изменения коэффициента шедевральности ) поэтому это просто мои заметки.

Рейтинг отрицательно влияет на БМ, причем при определенном стечении очень отрицательно ;) и если в формуле оно может и не так, но на практике оно так ... подумайте над этим :)

Автор:  neo [ 28 10 2007, 23:05 ]
Заголовок сообщения: 

lvinst писал(а):
Тут произошла терминологическая путанница. Дело в том, что функция, которая вычиляет соответствие запросу и функция, о которой я веду речь и котрую мы называем БМ -- это две разные функции.

Правильнее было бы функцию, о которой я веду речь назвать функцией ранжирования Fir. IstockRanking (TM) :smile:

А функцию, которая вычиляет релевантность запросу -- функцией релевантности Frel. Функция релевантности работает только с параметрами запроса и ключеыми словами (описанием) картинки. Она, естественно, не учитывает никаких свойств портфолио автора. Она просто вычисляет, насколько хорошо картика соответсвует запросу.
И отчего зависит функция релевантности? Так, как описывает iChip?

Автор:  neo [ 28 10 2007, 23:19 ]
Заголовок сообщения: 

POOH писал(а):
Не абстрактный пример:
Решил проверить правмльность выкладок (здешних).
1)Фото новое, продаж 0, просмотров 5. По поисковому слову нашлось на 17 стр. Один раз купили. На след. день по поиску нашлось на 3-й стр.
2) Фото старое, продаж 0, просмотров 25. Нашлось на 17 стр. Сегодня одна покупка. Завтра сообщу результат поиска.

РООН, скажите какой запрос (можно в личку)

Автор:  POOH [ 28 10 2007, 23:24 ]
Заголовок сообщения: 

Цитата:
РООН, скажите какой запрос (можно в личку)

Да какие секреты! Первый по слову Deer - фоток не так уж много, можно было не уточнять. Второй по словам Girl, boy, couple, children.

Автор:  lvinst [ 28 10 2007, 23:38 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Тут произошла терминологическая путанница. Дело в том, что функция, которая вычиляет соответствие запросу и функция, о которой я веду речь и котрую мы называем БМ -- это две разные функции.

Правильнее было бы функцию, о которой я веду речь назвать функцией ранжирования Fir. IstockRanking (TM) :smile:

А функцию, которая вычиляет релевантность запросу -- функцией релевантности Frel. Функция релевантности работает только с параметрами запроса и ключеыми словами (описанием) картинки. Она, естественно, не учитывает никаких свойств портфолио автора. Она просто вычисляет, насколько хорошо картика соответсвует запросу.
И отчего зависит функция релевантности? Так, как описывает iChip?


А она не имеет большого практическго смысла.

Предположительно имеет такой вид:

frel= k1/x11

k1 -- количество слов из запроса, которые встречаются в ключевх картинки
х11 -- количество ключевых слов у картинки.

Автор:  neo [ 28 10 2007, 23:43 ]
Заголовок сообщения: 

lvinst писал(а):
neo писал(а):
lvinst писал(а):
Тут произошла терминологическая путанница. Дело в том, что функция, которая вычиляет соответствие запросу и функция, о которой я веду речь и котрую мы называем БМ -- это две разные функции.

Правильнее было бы функцию, о которой я веду речь назвать функцией ранжирования Fir. IstockRanking (TM) :smile:

А функцию, которая вычиляет релевантность запросу -- функцией релевантности Frel. Функция релевантности работает только с параметрами запроса и ключеыми словами (описанием) картинки. Она, естественно, не учитывает никаких свойств портфолио автора. Она просто вычисляет, насколько хорошо картика соответсвует запросу.
И отчего зависит функция релевантности? Так, как описывает iChip?


А она не имеет большого практическго смысла.

Предположительно имеет такой вид:

frel= k1/x11

k1 -- количество слов из запроса, которые встречаются в ключевх картинки
х11 -- количество ключевых слов у картинки.

Ну как же, вы же говорите, что на ее основе формируются группы картинок. Т.е. как я понял группа с коэф-ом 0.2 будет стоять выше группы с 0.15, а порядок расположения картинок в группе определяется по fir. Правильно я понимаю?

Автор:  lvinst [ 28 10 2007, 23:52 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
neo писал(а):
lvinst писал(а):
Тут произошла терминологическая путанница. Дело в том, что функция, которая вычиляет соответствие запросу и функция, о которой я веду речь и котрую мы называем БМ -- это две разные функции.

Правильнее было бы функцию, о которой я веду речь назвать функцией ранжирования Fir. IstockRanking (TM) :smile:

А функцию, которая вычиляет релевантность запросу -- функцией релевантности Frel. Функция релевантности работает только с параметрами запроса и ключеыми словами (описанием) картинки. Она, естественно, не учитывает никаких свойств портфолио автора. Она просто вычисляет, насколько хорошо картика соответсвует запросу.
И отчего зависит функция релевантности? Так, как описывает iChip?


А она не имеет большого практическго смысла.

Предположительно имеет такой вид:

frel= k1/x11

k1 -- количество слов из запроса, которые встречаются в ключевх картинки
х11 -- количество ключевых слов у картинки.

Ну как же, вы же говорите, что на ее основе формируются группы картинок. Т.е. как я понял группа с коэф-ом 0.2 будет стоять выше группы с 0.15, а порядок расположения картинок в группе определяется по fir. Правильно я понимаю?


Да, правильно. Но эта функция плохо рассеивает картинки. То есть по популярному запросу в каждой группе будет настолько много картинок, что никакого преимущества от попадания в эту группу Вы не извлечете. Айстоковское ранжирование при плохом значении функции fir закинет вашу картинку в конец группы. И будет она там стоять на 100 странице.

То есть, при плохом значении функции fir для картинки не имеет смыла уменьшать количество ключевых слов. Потому что такой картинке легче пробится по случайным малопопулярным запросам.

Автор:  neo [ 29 10 2007, 00:02 ]
Заголовок сообщения: 

lvinst писал(а):
Да, правильно. Но эта функция плохо рассеивает картинки. То есть по популярному запросу в каждой группе будет настолько много картинок, что никакого преимущества от попадания в эту группу Вы не извлечете. Айстоковское ранжирование при плохом значении функции fir закинет вашу картинку в конец группы. И будет она там стоять на 100 странице.

То есть, при плохом значении функции fir для картинки не имеет смыла уменьшать количество ключевых слов. Потому что такой картинке легче пробится по случайным малопопулярным запросам.
Еще раз. Допустим есть картинка с 5 ключевиками, одно из которых women. Делаем запрос women. Значение frel для группы, в которой находится фотка - 0.2 (максимально возможное для данного запроса, потому что нужно вводить от 5 до 50 ключевиков). Получается в топе выдачи должна находиться эта фотка вместе с другими из этой группы. Теперь введите women и посмотрите, сколько ключевиков имеют топовые фотки.
p.s. можно на ты

Автор:  lvinst [ 29 10 2007, 00:11 ]
Заголовок сообщения: 

Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

P. S.На "ты" можно.

Автор:  neo [ 29 10 2007, 00:17 ]
Заголовок сообщения: 

lvinst писал(а):
Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

хм... что-то у нас расходятся результаты. Первая - не меньше 20, дальше - больше. Вы залогинены? Попробуйте выйти из ака, стереть куки и поюзать стандартный поиск айса.

Автор:  lvinst [ 29 10 2007, 00:23 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

хм... что-то у нас расходятся результаты. Первая - не меньше 20, дальше - больше. Вы залогинены? Попробуйте выйти из ака, стереть куки и поюзать стандартный поиск айса.

Да уж. Поиск рулит. Выходить и заходить, тереть куки не хочется --- слишком много лишних действий.

Возможно, они в этой функции релевантности учитывают что-то еще. Надо подумать.

Автор:  Maks Bolotnikov [ 29 10 2007, 00:39 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

хм... что-то у нас расходятся результаты. Первая - не меньше 20, дальше - больше. Вы залогинены? Попробуйте выйти из ака, стереть куки и поюзать стандартный поиск айса.

У меня тоже у первой фоты 12 слов...

Автор:  lvinst [ 29 10 2007, 00:40 ]
Заголовок сообщения: 

запрос

Какая-то ерунда у них с этой сортировкой. Файл от 15 октября стоит в сортировке по дате раньше, чем файл 22 октября.

Автор:  neo [ 29 10 2007, 00:43 ]
Заголовок сообщения: 

lvinst писал(а):
запрос

Какая-то ерунда у ни с этой сортировкой. Файл от 15 октября стоит в сортировке по дате раньше, чем файл 22 октября.

ну это же дата загрузки указывается, а проверяются они по времени по разному

Автор:  lvinst [ 29 10 2007, 00:44 ]
Заголовок сообщения: 

Макс Болотников писал(а):
neo писал(а):
lvinst писал(а):
Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

хм... что-то у нас расходятся результаты. Первая - не меньше 20, дальше - больше. Вы залогинены? Попробуйте выйти из ака, стереть куки и поюзать стандартный поиск айса.

У меня тоже у первой фоты 12 слов...


Наверное, настройки поиска. Типа адалт контент включен,выключен. Надо бросать полную сслку на страницу, чтобы сравнивать.

Автор:  neo [ 29 10 2007, 00:47 ]
Заголовок сообщения: 

Макс Болотников писал(а):
neo писал(а):
lvinst писал(а):
Посмотрела. Первая картинка 12 ключевиков. Из них минимум два соответствуют поисковому запросу явно.

хм... что-то у нас расходятся результаты. Первая - не меньше 20, дальше - больше. Вы залогинены? Попробуйте выйти из ака, стереть куки и поюзать стандартный поиск айса.

У меня тоже у первой фоты 12 слов...

попробуйте стереть куки и вбить в форму на главной странице http://www.istockphoto.com , а то lvinst ленится.

Автор:  lvinst [ 29 10 2007, 00:49 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
запрос

Какая-то ерунда у ни с этой сортировкой. Файл от 15 октября стоит в сортировке по дате раньше, чем файл 22 октября.

ну это же дата загрузки указывается, а проверяются они по времени по разному

то есть сортируются они дате проверки. Понятно.

Автор:  lvinst [ 29 10 2007, 01:03 ]
Заголовок сообщения: 

neo писал(а):
а то lvinst ленится.

А смысл?
Там уже во второй фотке намного больше ключевых слов. Сложнее, значит, эта релевантность вычиляется. Но как бы она не вычислялась -- особого смысла в ней все равно не вижу. Плохо такая функция должна фотки разбрасывать. Подряд будут идти фотки одного и того же автора с одинаковым набров ключевиков, много будет фоток с одинаковым рангом и т.п.
А если плохо рассеивает, то образуются многочисленные группы записей с одинаковым значением релевантности.

Автор:  lvinst [ 29 10 2007, 01:14 ]
Заголовок сообщения: 

Rellas писал(а):
lvinst, про фотолию хз, имхо инспектором ... но на это тоже повлиять никак нельзя, кроме изменения коэффициента шедевральности ) поэтому это просто мои заметки.


Ага, понятно.
Rellas писал(а):
Рейтинг отрицательно влияет на БМ, причем при определенном стечении очень отрицательно ;) и если в формуле оно может и не так, но на практике оно так ... подумайте над этим :)

Хе-хе. Подумала. Кажется я поняла, что Вы имете в виду.Действительно ничего хорошего в этом рейтинге нет.
:smile:

In theory, theory and practice are the same. In practice, they are not.

:smile:

Автор:  neo [ 29 10 2007, 01:17 ]
Заголовок сообщения: 

lvinst писал(а):
neo писал(а):
а то lvinst ленится.

А смысл?
Там уже во второй фотке намного больше ключевых слов. Сложнее, значит, эта релевантность вычиляется. Но как бы она не вычислялась -- особого смысла в ней все равно не вижу. Плохо такая функция должна фотки разбрасывать. Подряд будут идти фотки одного и того же автора с одинаковым набров ключевиков, много будет фоток с одинаковым рангом и т.п.
А если плохо рассеивает, то образуются многочисленные группы записей с одинаковым значением релевантности.
Просто я думаю, что нет никакой ф-ии релевантности. Если есть ключевик в описании, фотка будет показываться, нет - не будет. Единственное, в запросах с оператором OR (например business OR people OR women), картинки разбиваются на группы по очень простому принципу: сначала идут фотки, содержащие все три слова из поискового запроса, потом с двумя, потом с одним. Т.е. кол-во групп равно кол-ву слов в запросе. Если же идет оператор (AND), а он идет по дефолту, то формируется только одна группа, в которой есть все фотки, содержащие все слова из запроса.

Автор:  lvinst [ 29 10 2007, 02:04 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
neo писал(а):
а то lvinst ленится.

А смысл?
Там уже во второй фотке намного больше ключевых слов. Сложнее, значит, эта релевантность вычиляется. Но как бы она не вычислялась -- особого смысла в ней все равно не вижу. Плохо такая функция должна фотки разбрасывать. Подряд будут идти фотки одного и того же автора с одинаковым набров ключевиков, много будет фоток с одинаковым рангом и т.п.
А если плохо рассеивает, то образуются многочисленные группы записей с одинаковым значением релевантности.
Просто я думаю, что нет никакой ф-ии релевантности. Если есть ключевик в описании, фотка будет показываться, нет - не будет. Единственное, в запросах с оператором OR (например business OR people OR women), картинки разбиваются на группы по очень простому принципу: сначала идут фотки, содержащие все три слова из поискового запроса, потом с двумя, потом с одним. Т.е. кол-во групп равно кол-ву слов в запросе. Если же идет оператор (AND), а он идет по дефолту, то формируется только одна группа, в которой есть все фотки, содержащие все слова из запроса.


Это можно проверить.

Если подобрать два-три слова, которые по отдельности дают небольшое количество фоток на выходе -- не больше сотни.

Ввести эти три слова с оператором OR в строку поиска. Убедится, что есть фотки с тремя или хотя бы двумя из этих слов в ключевых. А затем последовательно включить эти все фотки в лайтбокс.

Если в лайтбоксе они изменят порядок своего расположения по сравнению с расположением при сортировке по BM, значит, сортировка на группы релевантности есть. Если не изменят, значит -- нет.

Автор:  lvinst [ 29 10 2007, 02:47 ]
Заголовок сообщения: 

Тэкс, neo, я проверила. В случае с оператором OR похоже все так и обстоит. То есть есть группы релевантности по количеству ключевых, совпадающих с запросом.

Автор:  Rellas [ 29 10 2007, 08:51 ]
Заголовок сообщения: 

Вот еще гляньте ... если в даже саой убитой по бестматчу картинке нажать на Find Similar >>, айс сформирует запрос где использованы все ключевики карточки через OR, и картинка ваша будет по бестматчу на первом месте из большого колличества картинок в выборке ... это говорит о том что действительно присутствует такое понятие как соответствие ключевым, по крайней мере при использовании покупателем OR. Отсюда всё тотже вывод, прозвучавший выше - если это хирург со скальпелем то описываем малым колличеством слов, если это попсня типа бэкграундов то наоборот )

Автор:  lvinst [ 29 10 2007, 11:37 ]
Заголовок сообщения: 

При использовании оператора OR есть разбиение на группы релевантности при использованиии AND -- нет.

Вопрос вот, в чем: покупатель этой операцией OR пользуется? Было бы логичнее, ессли бы он пользовался операцией AND. К тому же, AND выставляется по умолчанию.

Автор:  Юрий Христич [ 29 10 2007, 14:19 ]
Заголовок сообщения: 

Да, я тоже удивляюсь. Союзом OR, наверняка пользуюстся, только в исключительных случаях, при очень заковыристных запросах. И, надо полагать, что пользователь вводящий такой сложный запрос, не такой даун, чтобы потратив столько сил на формулировку запроса, не потратил бы еще чуть-чуть, чтобы просмотреть ВСЕ найденные варианты, а не хватать первое, что плавает наверху. И сортировка по БМ, явно не для таких пользователей придумана :).

Автор:  lvinst [ 29 10 2007, 15:58 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Да, я тоже удивляюсь. Союзом OR, наверняка пользуюстся, только в исключительных случаях, при очень заковыристных запросах. И, надо полагать, что пользователь вводящий такой сложный запрос, не такой даун, чтобы потратив столько сил на формулировку запроса, не потратил бы еще чуть-чуть, чтобы просмотреть ВСЕ найденные варианты, а не хватать первое, что плавает наверху. И сортировка по БМ, явно не для таких пользователей придумана :).

Дело не только в этом.
Запрос -- z1 z2, где z1 и z2 - отдельные слова
По умолчанию Айс даст:
"z1 z2".
Если такая фраза целиком не встречается в словаре Гетти,
то тогда по умолчанию
z1 AND z2
А если пользователь самостоятельно введет z1 OR z2, то Айс объединит три поисковых запроса в один.

В первой группе релевантности будут результаты запроса
z1 AND z2
Во второй
z1
В третьей
z2


Каждая из групп внутри себя будет отранжирована в соответсвии с функцией fir.

Автор:  neo [ 29 10 2007, 16:03 ]
Заголовок сообщения: 

lvinst писал(а):
В первой группе релевантности будут результаты запроса
z1 AND z2
Во второй
z1
В третьей
z2


Каждая из групп внутри себя будет отранжирована в соответсвии с функцией fir.
По-моему всего будет две группы - вторая и третья объединяются.

Автор:  lvinst [ 29 10 2007, 16:07 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
В первой группе релевантности будут результаты запроса
z1 AND z2
Во второй
z1
В третьей
z2


Каждая из групп внутри себя будет отранжирована в соответствии с функцией fir.
По-моему всего будет две группы - вторая и третья объединяются.


ОК. Проверю вечером.

Автор:  POOH [ 29 10 2007, 17:15 ]
Заголовок сообщения: 

Цитата:
2) Фото старое, продаж 0, просмотров 25. Нашлось на 17 стр. Сегодня одна покупка. Завтра сообщу результат поиска.


Сообщаю: 1-я страница.

Автор:  lvinst [ 29 10 2007, 20:18 ]
Заголовок сообщения: 

Проверила -- действительно две группы. Вторая и третья объединяются в одну. И действительно, какой их смысл разделять, если слова в запросе равноправны.

Автор:  Юрий Христич [ 29 10 2007, 20:57 ]
Заголовок сообщения: 

lvinst писал(а):
какой их смысл разделять, если слова в запросе равноправны.

Ну почему же, могли бы в сортировке учесть и порядок слов в запросе.

Автор:  lvinst [ 29 10 2007, 21:10 ]
Заголовок сообщения: 

Юрий Христич писал(а):
lvinst писал(а):
какой их смысл разделять, если слова в запросе равноправны.

Ну почему же, могли бы в сортировке учесть и порядок слов в запросе.

Да это пустяки по сравнению со всем остальным.
Меня вот очень сильно удивили другие параметры сортировки -- по контрибутору и по названию.

Просто сортируется по названию работы и по нику автора. Даже не знаю, кто бы этим мог пользоваться? :smile:
Хотя если называть свои работы A-a-ah!... То они всегда будут вверху при сортировке по названию.
:smile:

Автор:  neo [ 29 10 2007, 21:33 ]
Заголовок сообщения: 

lvinst писал(а):
Юрий Христич писал(а):
lvinst писал(а):
какой их смысл разделять, если слова в запросе равноправны.

Ну почему же, могли бы в сортировке учесть и порядок слов в запросе.

Да это пустяки по сравнению со всем остальным.
Меня вот очень сильно удивили другие параметры сортировки -- по контрибутору и по названию.

Просто сортируется по названию работы и по нику автора. Даже не знаю, кто бы этим мог пользоваться? :smile:
Хотя если называть свои работы A-a-ah!... То они всегда будут вверху при сортировке по названию.
:smile:
Если еще и в кавычки взять, то точно в топе будет :D Вообще, думаю, большая часть людей пользуются дефолтным поиском (ну разве что уберут галочку photos или illustrations).

Автор:  Юрий Христич [ 29 10 2007, 21:42 ]
Заголовок сообщения: 

neo писал(а):
Вообще, думаю, большая часть людей пользуются дефолтным поиском (ну разве что уберут галочку photos или illustrations).

Вопрос интересный. Мне тоже так кажется, но с одним уточнением. Если человек первый раз пришел на Айс, то да. Он ничего не знает, ничего не понимает, предпочтет сортировку не менять. Но если человек ищет картинки неоднократно, если ему регулярно приходится перелопачивать примерно одну и ту же тематику, то, скорее всего, у него будет установлена сортировка по дате.

Но это лишь предположение, основанное на логических рассуждениях и собственном опыте. Как это проверить я не знаю. И пока я не готов, сделать какие-то полезные выводы, если мое предположение верно.

Автор:  lvinst [ 29 10 2007, 21:49 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Юрий Христич писал(а):
lvinst писал(а):
какой их смысл разделять, если слова в запросе равноправны.

Ну почему же, могли бы в сортировке учесть и порядок слов в запросе.

Да это пустяки по сравнению со всем остальным.
Меня вот очень сильно удивили другие параметры сортировки -- по контрибутору и по названию.

Просто сортируется по названию работы и по нику автора. Даже не знаю, кто бы этим мог пользоваться? :smile:
Хотя если называть свои работы A-a-ah!... То они всегда будут вверху при сортировке по названию.
:smile:
Если еще и в кавычки взять, то точно в топе будет :D Вообще, думаю, большая часть людей пользуются дефолтным поиском (ну разве что уберут галочку photos или illustrations).


Ну чтоб совсем вверху. тогда нужно называть каждую работу с пробела или восклицательного знака. Они раньше в таблице ASCII идут, чем кавычки.
:smile:

Автор:  de-mi [ 30 10 2007, 01:26 ]
Заголовок сообщения: 

Простите пожалуйста, я тупая, но так поняла, что на айсе ставить-получать оценки - есть плохо.
Вы только скажите, я правильно поняла? Объяснять не надо, я все равно не пойму :smile:

Автор:  Юрий Христич [ 30 10 2007, 01:47 ]
Заголовок сообщения: 

Rellas писал(а):
Рейтинг отрицательно влияет на БМ, причем при определенном стечении очень отрицательно ;) и если в формуле оно может и не так, но на практике оно так ... подумайте над этим :)

Я тут тоже не уловил терминологические нюансы. Какой рейтинг. Надеюсь, что это не тот рейтинг, кторый "оценки", они же Reviews?

Автор:  lvinst [ 30 10 2007, 02:09 ]
Заголовок сообщения: 

Да, за четкость терминологи надо бороться. хотя уже поздно. И она успела устояться. :smile:

Предлагаю в дальнешем использовать такую терминологию:
Рейтинг -- это тот набор оценок, который выставляется фотке покупателями/стокерами.
БМ -- один из видов сортировки результатов поиска с приоритетом релевантности (по-русскии -- соответствия) поисковому запросу.
Ранг - порядковый номер фотки в группе других фоток после применения к ним алгоритма ранжирования Айстока Istock Ranking (IR). Старое название -- Бестматч.

Автор:  Юрий Христич [ 30 10 2007, 02:19 ]
Заголовок сообщения: 

lvinst писал(а):
Предлагаю в дальнешем использовать такую терминологию...

Ок. Но, пожалуйста, ответьте на вопрос. Действительно ли есть основания считать, что Рейтинг отрицательно влияет на Ранг. Т. е. просмотры без оценок наносят меньший ущерб Рангу (и соответственно, меньше понижают картинку в БМ-сортировке), чем просмотры с оценками?

Автор:  lvinst [ 30 10 2007, 02:29 ]
Заголовок сообщения: 

Юрий Христич писал(а):
lvinst писал(а):
Предлагаю в дальнешем использовать такую терминологию...

Ок. Но, пожалуйста, ответьте на вопрос. Действительно ли есть основания считать, что Рейтинг отрицательно влияет на Ранг. Т. е. просмотры без оценок наносят меньший ущерб Рангу (и соответственно, меньше понижают картинку в БМ-сортировке), чем просмотры с оценками?


Я не могу на него ответить. Я могу только сказать, как я поняла Rellasа.
А поняла я его так:
рейтинг не помогает продавать фотку, но зато является своеобразным генератором просмотров. Ходят всякие зеваки и смотрят на высокорейтинговые фотки. Кроме того, каждый заходящий поставить рейтниг генерирует просмотры без продажи и гробит ранг фотки.


А на ранг фотки, рейтинг, если и влияет, то -- незначительно. В этой функции ранжирования приоритет за другими показателями.

Автор:  Юрий Христич [ 30 10 2007, 03:13 ]
Заголовок сообщения: 

Нашел интересную для анализа пару иллюстраций (векторные):

1) 3219857
Изображение

2) 3320266
Изображение

Автор один и тот же, более-менее успешный эксклюзивщик bubaone. Сюжет картинок тоже почти одинаковый (два похожих набора иконок). Набор ключевых слов, как ни странно довольно сильно отличается. Совпадают меньше половины слов. (Видимо, автор хотел охватить максимум запросов). Но число ключевых и там и там максимально (в первой картинке, оно даже слегка превышает максимум!). И то и другое изображение имеют один публичный лайтбокс, и не имеют ни одного ревью (Рейтинг нулевой)

Но в поиске среди векторов по слову 'manuscript' при БМ-сортировке, первое изображение (3219857) стоит выше второго (3320266). И это довольно странно. Кто хочет, может убедиться самостоятельно -- эти картинки висят в первых строках на первой же странице результатов поиска.

Странность заключается в том, что соотношение числа просмотров у первого хуже (119d, 1157v), чем у второго (78d, 754v). И по времени загрузки, первое изображение опережает второе на две недели (у первого: 2007-04-15; у второго: 2007-05-02). Т. е. оно старше, а значит как бы "хуже".


Какие могут быть версии: почему такая сортировка?

1. Возможно, что у второго изображения случилось несколько продаж сегодня и его Ранг еще не успел обновиться (это можно будет проверить через сутки)

2. Возможно, что таково сильное влияние первых продаж. Хотя в это верится с трудом (прошло уже больше полугода)

3. Возможно, что так влияет равномерность продаж. Например, второе изображение уже давно никто не покупал. А первое пользуется постоянным спросом. Хотя, судя по количеству продаж, можно предположить, скорее всего, и то и другое покупают достаточно регулярно.

4. Может быть у первого изображения случались расширенные продажи (и/или может быть они случились не так давно)?

5. Может быть виновата разница в ключевых словах?

6. Может быть у картинок имеющих более 100 закачек Ранг всегда чуть выше?


Что-то еще? Какие еще могут быть предположения?

Автор:  Talya [ 30 10 2007, 06:02 ]
Заголовок сообщения: 

Я уже свое предположение высказывала, но аннушка говорит нет такого. У картинки есть еще не видимая даже автору оценка. У меня вот есть три фотографии с абсолютно одинаковым набор слов, загруженные в один день.
1, 2 и 3, где 1 загружена раньше.
1: 0 продаж, 2 просмотра, 0 лайтбоксов, 0 ревью
2: 0/3/0/1
3: 0/3/0/1

В моем портфеле по бм они появляются в порядка 2, 1 и (с разрывом в несколько позиций) 3. 2 и 3 при этом абсолютно идентичны по всем параметрам, если новизну учитывать, то 3 должна бы быть чуть выше. Единственная разница, какую я вижу, это copy space у них в разных местах, но учитывать это в рейтинге уж точно перебор.

Автор:  Rellas [ 30 10 2007, 07:42 ]
Заголовок сообщения: 

Talya, невидимым рейтингом может быть имадж файт, к моему удивлению он досихпор жиф ... и последний раз когда я в него игрался то находил картинки с новыми номерами уже имевшие победы/поражения, т.е. я не один кто в него играется (http://istockphoto.com/image_fight).

Юрий, у меня есть парочка картинок хайрейтов, т.е. ревью хватает чтобы быть на первой странице по большинству своих ключевиков в сортировке по рейтингу. И у этих картинок просто убился бестматч в свое время и не восстанавливается и наврятли восстановится, а сортировка это приносит неимоверное колличество просмотров и настолько же малое колличество продаж. Парочка ревью может и положительна для бестматча, но такое их колличество которое приводит к появлению на верхних страницах в сортировке по рейтингу (особенно появлению на первой странице) чревато потерей бестматча вообще для данной картинки.

Автор:  Elnur [ 30 10 2007, 07:56 ]
Заголовок сообщения: 

Представляю, как на одном из соберунов айстока, пьяный Ливингстоун заявляет, что никакого бестмача никогда не было. :smile:

У алхимиков теперь три тайны - философский камень, живая вода, и секрет бестматча :D

Автор:  lvinst [ 30 10 2007, 12:23 ]
Заголовок сообщения: 

Юрий Христич писал(а):



6. Может быть у картинок имеющих более 100 закачек Ранг всегда чуть выше?




Те, что продаются с огоньком, могут ранжироваться выше. Еще один важный и пока неучтенный фактор -- регулярность продаж.

Надо внести в формулу еще одно слагаемое -- загруки за время. Я его не учла, а это очень важный показатель.

Автор:  Юрий Христич [ 30 10 2007, 14:12 ]
Заголовок сообщения: 

Rellas писал(а):
Парочка ревью может и положительна для бестматча, но такое их колличество которое приводит к появлению на верхних страницах в сортировке по рейтингу (особенно появлению на первой странице) чревато потерей бестматча вообще для данной картинки.

О! Теперь понятно, что имелось в виду. Значит действительно можно посоветовать de-mi, и остальным -- не ставить оценки картинкам, особенно если оценок у картинки уже больше десятка.

И про имидж-файт, хорошо напомнили: это "еще один неизвестный нелинейный коэффициент в формуле Всея" :)

Автор:  _maxp_ [ 30 10 2007, 14:39 ]
Заголовок сообщения: 

А когда можно ожидать окончательного согласованного вывода?

_голосом японского самурая_: "Где ФОРМУЛА?"

Автор:  iChip [ 30 10 2007, 17:38 ]
Заголовок сообщения: 

_maxp_ писал(а):
А когда можно ожидать окончательного согласованного вывода?

_голосом японского самурая_: "Где ФОРМУЛА?"


А где шнобелевская премия? ;)

Автор:  Elnur [ 30 10 2007, 18:22 ]
Заголовок сообщения: 

Я сегодня попытался тоже заняться бестматчоонанизмом.... проанализировал штук 10 своих фоток с единичной продажей и место в портфолио по бестматчу. Смотрел на количество просмотров, количество review, наличие их в лайтбоксах, время закачки, время продажи по отношению к времени загрузки....

никакой закономерности !!!

Автор:  Simfo [ 30 10 2007, 21:02 ]
Заголовок сообщения: 

Какой вы хотите практический смысл из всего этого извлечь? Плохая работа все равно будет продаваться плохо! Хорошая -- лучше. Какие у нас есть "рычаги" для влияния на БМ? Ну разьве что подгадать приемку с индексацией к понедельнику, как на Шатере, да и то, больше для самоуспокоения.

Автор:  Юрий Христич [ 31 10 2007, 07:10 ]
Заголовок сообщения: 

Simfo писал(а):
Какой вы хотите практический смысл из всего этого...

:) Практический смысл? Хм. Как же далеки Вы от настоящей поэзии, от возвышенного полета математической мысли, не стесненной "практическим смыслом"...

Не знаю, что Вам и сказать. Вглядитесь еще раз в рисунки Invist. Неужели Ваша душа не трепещет от их вида? У меня, кстати, такие рисунки на Шаттере покупают очень активно. Подумайте над этим...

:)

Автор:  Rellas [ 31 10 2007, 09:15 ]
Заголовок сообщения: 

_maxp_, формула будет когда какомунить веб-программеру надоедят наши раскопки и он вытащит формулу бестматча прям из айсовских скриптов )

Автор:  lvinst [ 31 10 2007, 12:32 ]
Заголовок сообщения: 

Парни, Вас ждет вторая серия. Сегодня вечером опишу общий вид фукции f2.

:smile:

Автор:  lvinst [ 01 11 2007, 00:56 ]
Заголовок сообщения: 

Изображение

Второе слагаемое функции ранжирования. Зависит только от автора и характеристик его портфолио.

Функции y1 и y2 изменяются скачкообразно и сильно нелинейно. То есть преимущества от золотого статуса при ранжировании должно быть существенно ощутимее, чем преимущества бронзового.

Могут ли в этой функции назначаться штрафы в зависмости от низкого коэффициента приемки и спама в ключевиках. Могут. Но, ИМХО, не назначаются.

Автор:  Maks Bolotnikov [ 01 11 2007, 20:41 ]
Заголовок сообщения: 

lvinst писал(а):
Изображение

Второе слагаемое функции ранжирования. Зависит только от автора и характеристик его портфолио.

Функции y1 и y2 изменяются скачкообразно и сильно нелинейно. То есть преимущества от золотого статуса при ранжировании должно быть существенно ощутимее, чем преимущества бронзового.

Могут ли в этой функции назначаться штрафы в зависмости от низкого коэффициента приемки и спама в ключевиках. Могут. Но, ИМХО, не назначаются.

Я недавно перешел на серебро. И почувствовал небольшой спад! :)
Сомневаюсь, что цвет канистры влияет на БМ.

Автор:  neo [ 01 11 2007, 22:17 ]
Заголовок сообщения: 

lvinst писал(а):
Функции y1 и y2 изменяются скачкообразно и сильно нелинейно. То есть преимущества от золотого статуса при ранжировании должно быть существенно ощутимее, чем преимущества бронзового.

Могут ли в этой функции назначаться штрафы в зависмости от низкого коэффициента приемки и спама в ключевиках. Могут. Но, ИМХО, не назначаются.

Посмотрелпозиции фоток с нулевыми продажами (чтобы убрать влияние факторов отношения и кол-ва загрузок) у разных авторов по одному низкоконкурентному запросу. Фактор "возраст фотки" исключать не стал. Для большей достоверности надо бы брать только новые карточки, проверенные хотя бы в один и тот же день, а также увеличить выборку в несколько раз, но все же. Кроме ваших факторов добавил еще общий рейтинг фотографов. Заметил только влияние эксклюзивности.

Автор:  neo [ 01 11 2007, 22:48 ]
Заголовок сообщения: 

Вот еще одну характеристику карточки придумал - ее тип. ИМХО, вектор айс любит больше, чем фото.

Автор:  Maks Bolotnikov [ 01 11 2007, 23:04 ]
Заголовок сообщения: 

neo писал(а):
Вот еще одну характеристику карточки придумал - ее тип. ИМХО, вектор айс любит больше, чем фото.

Да и Шатер тоже! Кто его не любит? :)

Автор:  lvinst [ 01 11 2007, 23:31 ]
Заголовок сообщения: 

Макс Болотников писал(а):
lvinst писал(а):
Изображение

Второе слагаемое функции ранжирования. Зависит только от автора и характеристик его портфолио.

Функции y1 и y2 изменяются скачкообразно и сильно нелинейно. То есть преимущества от золотого статуса при ранжировании должно быть существенно ощутимее, чем преимущества бронзового.

Могут ли в этой функции назначаться штрафы в зависмости от низкого коэффициента приемки и спама в ключевиках. Могут. Но, ИМХО, не назначаются.

Я недавно перешел на серебро. И почувствовал небольшой спад! :)
Сомневаюсь, что цвет канистры влияет на БМ.


Во-первых, промежуток времени короткий. А во-вторых, рейтинг автора в наибольшей степени сказывается на старте фотке. Когда все остальные показатели нулевые.

В-третьих, влияния количества файлов в портфолио на ранг можно проверить. И с высокой степенью вероятности утверждать, влияет ли данный фактор на ранжирование или не влияет.

А вот в какой степени влияет -- это вопрос уже более сложный.

Автор:  lvinst [ 01 11 2007, 23:36 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Функции y1 и y2 изменяются скачкообразно и сильно нелинейно. То есть преимущества от золотого статуса при ранжировании должно быть существенно ощутимее, чем преимущества бронзового.

Могут ли в этой функции назначаться штрафы в зависмости от низкого коэффициента приемки и спама в ключевиках. Могут. Но, ИМХО, не назначаются.

Посмотрелпозиции фоток с нулевыми продажами (чтобы убрать влияние факторов отношения и кол-ва загрузок) у разных авторов по одному низкоконкурентному запросу. Фактор "возраст фотки" исключать не стал. Для большей достоверности надо бы брать только новые карточки, проверенные хотя бы в один и тот же день, а также увеличить выборку в несколько раз, но все же. Кроме ваших факторов добавил еще общий рейтинг фотографов. Заметил только влияние эксклюзивности.


Эта статитстика не подходит для исследования. На ранжирование еще очень сильно сказываются дата и максимальная цена для продажи. Чтобы проверить, влияет ли количество фоток в портфеле на рейтинг нужно отобрать фотки, удовлетворяющие следующим критериям:
- одна дата приемки (или хотя бы очень близкая)
- нулевые продажи
- одинаковая цена (лучше если это будут вектора с одной и той же ценой)
- одинаковый статус авторов (или все эксклюзивщики или все неэкслюзивщики).

Ну и естественно, в выборке должны присутствоваи авторы не просто с разным количеством загрузок, а с разным статусом -- бронза, серебро. золото и т.п.

Автор:  lvinst [ 01 11 2007, 23:39 ]
Заголовок сообщения: 

neo писал(а):
Вот еще одну характеристику карточки придумал - ее тип. ИМХО, вектор айс любит больше, чем фото.

Айс любит то, что можно продать подороже. Для вектора цена в 12 кредитов -- не редкость. Соответственно, векторные файлы с такой ценой должны ранжироваться выше, чем фотки с максимальной ценой продажи в 6 кредитов.

Автор:  neo [ 01 11 2007, 23:48 ]
Заголовок сообщения: 

lvinst писал(а):
Эта статитстика не подходит для исследования. На ранжирование еще очень сильно сказываются дата и максимальная цена для продажи. Чтобы проверить, влияет ли количество фоток в портфеле на рейтинг нужно отобрать фотки, удовлетворяющие следующим критериям:
- одна дата приемки (или хотя бы очень близкая)
- нулевые продажи
- одинаковая цена (лучше если это будут вектора с одной и той же ценой)
- одинаковый статус авторов (или все эксклюзивщики или все неэкслюзивщики).

Ну и естественно, в выборке должны присутствоваи авторы не просто с разным количеством загрузок, а с разным статусом -- бронза, серебро. золото и т.п.
Да, все так. Вот только овчинка выделки не стоит. Сделать это достаточно сложно, а вот повлиять на эти факторы можно только косвенно. А вот на характеристики самих карточек можно влиять непосредственно - через ключевые слова. Предлагаю придумать какую-нибудь методологию проверки, которая бы позволяла оценить силу тех или иных факторов (характеристик карточки).
p/s в случае необходимости возьму на себя сбор статистики на айсе.

Автор:  lvinst [ 02 11 2007, 00:20 ]
Заголовок сообщения: 

На самом деле не так уж это и сложно.
Просто новые файлы долго в лайтбоксе проявляются А то можно было бы набрать и больше.

Вот пока те, что проявились:


Номер файла Размер портфолио Ранг
4585611 25785 1
4585610 6255 2
4577810 14 3


Третий, к сожалению, не экслклюзивщик. Как проявятся в лайтбоксе другие файлы -- дополню статистику.

Автор:  lvinst [ 02 11 2007, 00:21 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
Эта статитстика не подходит для исследования. На ранжирование еще очень сильно сказываются дата и максимальная цена для продажи. Чтобы проверить, влияет ли количество фоток в портфеле на рейтинг нужно отобрать фотки, удовлетворяющие следующим критериям:
- одна дата приемки (или хотя бы очень близкая)
- нулевые продажи
- одинаковая цена (лучше если это будут вектора с одной и той же ценой)
- одинаковый статус авторов (или все эксклюзивщики или все неэкслюзивщики).

Ну и естественно, в выборке должны присутствоваи авторы не просто с разным количеством загрузок, а с разным статусом -- бронза, серебро. золото и т.п.
Да, все так. Вот только овчинка выделки не стоит. Сделать это достаточно сложно, а вот повлиять на эти факторы можно только косвенно. А вот на характеристики самих карточек можно влиять непосредственно - через ключевые слова. Предлагаю придумать какую-нибудь методологию проверки, которая бы позволяла оценить силу тех или иных факторов (характеристик карточки).
p/s в случае необходимости возьму на себя сбор статистики на айсе.


Какие конкретно характеристики Вас интересуют?

Автор:  neo [ 02 11 2007, 00:23 ]
Заголовок сообщения: 

lvinst писал(а):
neo писал(а):
lvinst писал(а):
Эта статитстика не подходит для исследования. На ранжирование еще очень сильно сказываются дата и максимальная цена для продажи. Чтобы проверить, влияет ли количество фоток в портфеле на рейтинг нужно отобрать фотки, удовлетворяющие следующим критериям:
- одна дата приемки (или хотя бы очень близкая)
- нулевые продажи
- одинаковая цена (лучше если это будут вектора с одной и той же ценой)
- одинаковый статус авторов (или все эксклюзивщики или все неэкслюзивщики).

Ну и естественно, в выборке должны присутствоваи авторы не просто с разным количеством загрузок, а с разным статусом -- бронза, серебро. золото и т.п.
Да, все так. Вот только овчинка выделки не стоит. Сделать это достаточно сложно, а вот повлиять на эти факторы можно только косвенно. А вот на характеристики самих карточек можно влиять непосредственно - через ключевые слова. Предлагаю придумать какую-нибудь методологию проверки, которая бы позволяла оценить силу тех или иных факторов (характеристик карточки).
p/s в случае необходимости возьму на себя сбор статистики на айсе.


Какие конкретно характеристики Вас интересуют?

отношение и кол-во загрузок за какое-то время

Автор:  neo [ 02 11 2007, 00:33 ]
Заголовок сообщения: 

lvinst писал(а):
На самом деле не так уж это и сложно.
Просто новые файлы долго в лайтбоксе проявляются А то можно было бы набрать и больше.

Вот пока те, что проявились:


Номер файла Размер портфолио Ранг
4585611 25785 1
4585610 6255 2
4577810 14 3


Третий, к сожалению, не экслклюзивщик. Как проявятся в лайтбоксе другие файлы -- дополню статистику.
По этой статистике непонятно, что влияет на ранг: размер портфолио, кол-во загрузок, и то и другое, либо рейтинг автора. Еще может влиять дата регистрации автора.

Автор:  lvinst [ 02 11 2007, 00:52 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
На самом деле не так уж это и сложно.
Просто новые файлы долго в лайтбоксе проявляются А то можно было бы набрать и больше.

Вот пока те, что проявились:


Номер файла Размер портфолио Ранг
4585611 25785 1
4585610 6255 2
4577810 14 3


Третий, к сожалению, не экслклюзивщик. Как проявятся в лайтбоксе другие файлы -- дополню статистику.
По этой статистике непонятно, что влияет на ранг: размер портфолио, кол-во загрузок, и то и другое, либо рейтинг автора. Еще может влиять дата регистрации автора.


Загрузки. естественно нулевые. Что касается остальных параметров, то ранжирование -- это процедура сугубо рациональная.

Ни рейтнг автора, ни дата регистрации напрямую на продаваемость картинок не влияют. А, значит, нет сымсла учитывать такие факторы.

Тут единственный серьезный недостаток -- выборка маленькая.

Автор:  lvinst [ 02 11 2007, 00:54 ]
Заголовок сообщения: 

neo писал(а):
lvinst писал(а):
neo писал(а):
lvinst писал(а):
Эта статитстика не подходит для исследования. На ранжирование еще очень сильно сказываются дата и максимальная цена для продажи. Чтобы проверить, влияет ли количество фоток в портфеле на рейтинг нужно отобрать фотки, удовлетворяющие следующим критериям:
- одна дата приемки (или хотя бы очень близкая)
- нулевые продажи
- одинаковая цена (лучше если это будут вектора с одной и той же ценой)
- одинаковый статус авторов (или все эксклюзивщики или все неэкслюзивщики).

Ну и естественно, в выборке должны присутствоваи авторы не просто с разным количеством загрузок, а с разным статусом -- бронза, серебро. золото и т.п.
Да, все так. Вот только овчинка выделки не стоит. Сделать это достаточно сложно, а вот повлиять на эти факторы можно только косвенно. А вот на характеристики самих карточек можно влиять непосредственно - через ключевые слова. Предлагаю придумать какую-нибудь методологию проверки, которая бы позволяла оценить силу тех или иных факторов (характеристик карточки).
p/s в случае необходимости возьму на себя сбор статистики на айсе.


Какие конкретно характеристики Вас интересуют?

отношение и кол-во загрузок за какое-то время


А что с этими параметрами непоятно? На ранг влияют. В какой степени по отношению к другим факторам -- установить трудно.

Автор:  _maxp_ [ 02 11 2007, 10:06 ]
Заголовок сообщения: 

BM опять перетрясли? Те немногие фотки (мои), которые оказывались на первой странице результатов поиска съехали в чертекакие дали... :(

Автор:  lvinst [ 02 11 2007, 11:49 ]
Заголовок сообщения: 

Знаится так. Для исследования влияния количества загрузок на рейтинг несколько авторов должны пожертвовать свои файлы с известной датой приемки. Потому что дата приемки -- сильно влияет на ранжирование. А в свойствах фотки она не отобпажается. Отображается только дата загрузки. Это раз.

Ни рейтинг, ни количество лайтбоксов на ранг фотки не влияют. Возьмите из своего портфолио фотки без продаж, одного размера (одинаковой стоимости) и запульте их в лайтбокс. Они должны выстроится согласно дате приемки. Это два. Если у когото-то есть файлы, нарушающие этот стройный принцип ранжирования -- стучите сюда.

Автор:  Rellas [ 02 11 2007, 12:17 ]
Заголовок сообщения: 

а есть уверенность что влияние оказывает дата приемки а не дата засыла? ) т.к. у меня некоторые картинки прошли через скаута, у них дата засыла с датой приемки разнилась в месяц например, и на мой неопытный взгляд они от этого сильно теряли, стояли в портфеле после других свежепринятых. Опять же ничего не утверждаю, это лишь мои наблюдения ... возможно вам будет интересно это проверить, или может уже проверили, а я упустил? :)

Автор:  lvinst [ 02 11 2007, 12:54 ]
Заголовок сообщения: 

Rellas писал(а):
а есть уверенность что влияние оказывает дата приемки а не дата засыла? ) т.к. у меня некоторые картинки прошли через скаута, у них дата засыла с датой приемки разнилась в месяц например, и на мой неопытный взгляд они от этого сильно теряли, стояли в портфеле после других свежепринятых. Опять же ничего не утверждаю, это лишь мои наблюдения ... возможно вам будет интересно это проверить, или может уже проверили, а я упустил? :)

Есть такая уверенность. И это уже првереннная инфа. Так что реджектнутые фотки нужно (если есть желание) дорабатывать и перезасылать. На их рейтнге реджект никак не скажется.

В случае pending executive -- аналогично.

Автор:  Юрий Христич [ 05 11 2007, 04:46 ]
Заголовок сообщения: 

Набрал в поиске 'calligraphy'. Включил только вектора. Сортировка БМ. Получил сто изображений. Засунул данные всех изображений в один текстовой файл. Почистил текст и переплавил часть информации из него в таблицу:
- название картинки
- номер картинки
- ник автора
- количество продаж
- количество просмотров
- соотношение просмотров и продаж (v/d)
- дата загрузки изображения
- возраст изображения в днях
- эксклюзивность автора
- цена картинки
- количество ревью
- количество дизайнов

Таблицу и текстовой файл можно взять здесь: http://www.dubki.ru/~molinga/zastavkin/ ... graphy.zip

Проанализировав полученную таблицу отметил следующее:

1. Количество эксклюзивщиков 47, неэксклюзивщиков 53. Распределены эксклюзивщики и неэксклюзивщики вполне изотропно. Нет никакого сгущения эксклюзивщиков в верхней части списка.
2. Корреляция между соотношением числа просмотров и продаж (v/d) и положением списке (выше/ниже) очень-очень слабая (или зашумленная?). Почти не просматривается!
3. Среднее соотношение v/d для всех картинок равно 15.5 (т. е. примерно одна покупка на 15 просмотров)
3.1. Среднее соотношение v/d для неэксклюзивщиков 11.6
3.2. Среднее соотношение v/d для эксклюзивщиков 19.8 (почти в два раза хуже!)

Предлагаю всем желающим присоединиться к анализу данной статистики. Может еще что-нибудь интересное накопаете.

Автор:  dimol [ 05 11 2007, 10:20 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Набрал в поиске 'calligraphy'. Включил только вектора. Сортировка БМ. Получил сто изображений.

сто мало, надо хотя бы тысячу - для настоящей статистики :smile:

Автор:  lvinst [ 05 11 2007, 12:24 ]
Заголовок сообщения: 

Юрий, такая статистика, которую Вы собрали, вообще не нужна. Сейчас нужна такая, о которой я писала в последних постах.

Нужно некотороя количество человек -- хотя бы 5-6, которые готовы предоставить инфу о файлах с нулевыми загрзками.

Автор:  Юрий Христич [ 05 11 2007, 16:55 ]
Заголовок сообщения: 

dimol писал(а):
сто мало, надо хотя бы тысячу - для настоящей статистики :smile:

Займитесь сами. Флаг в руки и вперед... :)

Автор:  dimol [ 05 11 2007, 16:59 ]
Заголовок сообщения: 

Юрий Христич писал(а):
dimol писал(а):
сто мало, надо хотя бы тысячу - для настоящей статистики :smile:

Займитесь сами. Флаг в руки и вперед... :)

неа :smile: я лучше пофотографирую

Автор:  Юрий Христич [ 05 11 2007, 17:05 ]
Заголовок сообщения: 

lvinst писал(а):
Юрий, такая статистика, которую Вы собрали, вообще не нужна.

Ну почему же? Это исследование показывает приблизительный коэффициент эксклюзивности (а ведь он же не может не входить в общую форумлу).

Вот список работ, эксклюзив и неэксклюзив в сортировке по бестматчу идут рядом. При этом соотношение v/d отличается в 1.7 раза. Если повторить это исследование на разных ключевых словах, на большом числе изображений, то можно уточнить результат. Скорее всего он будет в районе от 1.5 до 2. Прочие параметры на большом числе изображений естетственным образом устредняются и ими можно пренебречь.

Автор:  Konstantin Sutyagin [ 06 11 2007, 01:45 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Ну почему же? Это исследование показывает приблизительный коэффициент эксклюзивности (а ведь он же не может не входить в общую форумлу).


+1

Автор:  Simfo [ 06 11 2007, 02:48 ]
Заголовок сообщения: 

Юрий Христич писал(а):
3.1. Среднее соотношение v/d для неэксклюзивщиков 11.6
3.2. Среднее соотношение v/d для эксклюзивщиков 19.8 (почти в два раза хуже!)

Предлагаю всем желающим присоединиться к анализу данной статистики. Может еще что-нибудь интересное накопаете.


По этим подсчетам получается, что у эксклюзивщиков работы хуже почти в 2 раза? То есть при одинаковом количестве просмотров покупают больше неэксклюзивных работ? Или я что-то не так понял?

Автор:  Юрий Христич [ 06 11 2007, 03:23 ]
Заголовок сообщения: 

Simfo писал(а):
Получается, что у эксклюзивщиков работы хуже почти в 2 раза? То есть при одинаковом количестве просмотров покупают больше неэксклюзивных работ? Или я что-то не так понял?

Трудно сказать, в чем тут дело. Скорее всего у эксклюзивщиков оказалось меньше работ по данному ключевому слову, чем у неэксклюзивщиков (и вообще эксклюзивных авторов ведь меньше, чем неэксклюзивных?). Но благодаря коэффициенту, они подняты на верхние строчки в БМ-сортировке. Если это так, то в верхней части списка соотношения (v/d) должно быть примерно равными у эксклюзивных и неэксклюзивных авторов. А к нижней части списка разница между соотношениями должна все больше нарастать.

Я сейчас открыл таблицу и проверил это свое предположение. Расклад получается таким (эксклюзив/неэксклюзив):

в верхней четверти списка 14.1 / 10.5
в верхней половине списка 16.6 / 11.6
в нижней половине списка 23 / 12
в нижней четверти списка 23.6 / 12.1

Таки да. Чем ниже по списку, тем разница больше. Причем у эксклюзивных авторов разница нарастает гораздо быстрее (от 14.1 до 23.6), чем у неэксклюзивных (от 10.5 до 12.1).

Но для того, чтобы не ошибиться, нужно повторить наблюдение с большим числом изображений, с другими ключевыми. Вполне возможно, что в этом эксперименте вообще сработал какой-то случайный эффект.

Simfo, я помню, что Вы довольно ловко умеете орудовать с экселем. Попробуйте сами. Наверняка еще что-то углядите.

Автор:  Юрий Христич [ 06 11 2007, 03:40 ]
Заголовок сообщения: 

Забавно, если к концу первой сотни разница между средним соотношением v/d у эксклюзивщиков и неэксклюзивщиков становится двухкратной, то что же происходит во второй, третьей сотне изображений? Там что, будет уже пяти-десяти кратная разница? Интересно будет проверить.

Мое предположение о численном значении "коэффициента эксклюзивности" (в пределах 1.5--2) нуждается в концептуальном уточнении. Я не математик и не знаю, как называются и измеряются подобные "величины". Этот "коэффициент" получается разным на разных выборках. В данном случае, на первой сотне изображений, он получился равным 1.7. Если взять только первые пятьдесят или двадцать пять картинок, то "коэффициент" будет меньше. Если обсчитать двести или триста изображений, "коэффициент", скорее всего, окажется гораздо большим.

Ау, математики... Выручайте :)

Автор:  Simfo [ 06 11 2007, 07:59 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Simfo, я помню, что Вы довольно ловко умеете орудовать с экселем. Попробуйте сами. Наверняка еще что-то углядите.


Может и углядел бы, но Айс перестал возвращать данные по веб запросам. Тут уже ява нужна, а я с ней не знаком. :(
Вот если бы кто-нибудь написал программку, у которой на входе URL страницы, а на выходе текстовой файл с цифрами, которые идут на этой странице, после слов Downloads: и Viewed:.. Тогда можно было бы поразвлекаться :)

А насчет просмтотров\продаж у экс\не экс... Довольно странные у Вас получились результаты. Думаю, что это просто неудачная выборка.
Работы экскл. смотрят чаще из за высокого БМ, но их чаще и покупают. Не думаю, что в большой выборке соотношение d/v у экскл. авторов будет хуже. Должно быть примерно одинаковое. А может даже у экск. будет лучше. Ведь в экс. идут авторы, у которых Айс и без того продает не плохо.

Не поленился поставить IM. :) У меня по всему портфелю соотношение 9.74

Автор:  Simfo [ 06 11 2007, 08:28 ]
Заголовок сообщения: 

Нашел самое старое изображение на Айсе, второе по номеру.
http://www.istockphoto.com/file_closeup.php?id=2
соотношение v/d 7589.65 :)

Автор:  Юрий Христич [ 06 11 2007, 20:21 ]
Заголовок сообщения: 

Simfo писал(а):
Нашел самое старое изображение на Айсе, второе по номеру.
http://www.istockphoto.com/file_closeup.php?id=2

:) Плёночка...

Кстати эта фотка не самая старая по возрасту. В портфеле этого автора есть еще более старые (по дате) картинки. Но номера у них почему-то больше.

Самое старое по дате, вот это:
http://www.istockphoto.com/file_closeup ... .php?id=24

Автор:  Astroid [ 06 11 2007, 23:43 ]
Заголовок сообщения: 

Юрий Христич писал(а):
Simfo писал(а):
Нашел самое старое изображение на Айсе, второе по номеру.
http://www.istockphoto.com/file_closeup.php?id=2

:) Плёночка...

Кстати эта фотка не самая старая по возрасту. В портфеле этого автора есть еще более старые (по дате) картинки. Но номера у них почему-то больше.

Самое старое по дате, вот это:
http://www.istockphoto.com/file_closeup ... .php?id=24


Супер! всего один загруз за 5 лет.... :smile:

Автор:  lvinst [ 08 11 2007, 01:28 ]
Заголовок сообщения: 

http://www.istockphoto.com/user_view.php?id=324006

А вот еще один интересный пример. С 2004 года загружено 98 файлов,14 продаж, 934 члена КН.

Сама бы не нашла, прост прочла ветку на айсовском форуме -- http://www.istockphoto.com/forum_messages.php?threadid=59802&page=1

Автор:  Simfo [ 08 11 2007, 01:34 ]
Заголовок сообщения: 

lvinst писал(а):
http://www.istockphoto.com/user_view.php?id=324006

А вот еще один интересный пример. С 2004 года загружено 98 файлов,14 продаж, 934 члена КН.

Сама бы не нашла, прост прочла ветку на айсовском форуме -- http://www.istockphoto.com/forum_messages.php?threadid=59802&page=1


Он начал грузить только этим летом :) Просто давно зарегистрирован.

Автор:  lvinst [ 08 11 2007, 01:39 ]
Заголовок сообщения: 

А, ну тогда другое дело.
:smile:

P.S. Интересно будет посмотреть на его продажи через пару месяцев.

Автор:  dimol [ 08 11 2007, 16:45 ]
Заголовок сообщения: 

видел информацию, что на dreamstime при поиске учитывается approval ratio фотографа - что достаточно логично

Автор:  Rellas [ 08 11 2007, 17:06 ]
Заголовок сообщения: 

dimol писал(а):
видел информацию, что на dreamstime при поиске учитывается approval ratio фотографа - что достаточно логично


April 2007 - 82.4%
May 2007 - 76.2%
June 2007 - 100%
July 2007 - 90.9%
August 2007 - 100%
September 2007 - 100%
October 2007 - 100%

тоесть я когда там торговал в шоколаде купался? :))

Страница 1 из 1 Часовой пояс: UTC + 2 часа [ Летнее время ]
Powered by phpBB® Forum Software © phpBB Group
https://www.phpbb.com/